論文の概要: CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2406.10670v3
- Date: Tue, 29 Oct 2024 20:26:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:31.634299
- Title: CoLoR-Filter: Conditional Loss Reduction Filtering for Targeted Language Model Pre-training
- Title(参考訳): CoLoRフィルタ:目標言語モデル事前学習のための条件付き損失除去フィルタ
- Authors: David Brandfonbrener, Hanlin Zhang, Andreas Kirsch, Jonathan Richard Schwarz, Sham Kakade,
- Abstract要約: 本稿では,ベイズに触発された経験的アプローチを利用して,単純で効率的な選択基準を導出するデータ選択手法であるCoLoR-Filterを提案する。
CoLoR-Filterは1.2bパラメータターゲットモデルをトレーニングして、ランダムに選択された25bトークン上でトレーニングされた1.2bパラメータモデルにマッチさせることができる。
- 参考スコア(独自算出の注目度): 10.511388205893295
- License:
- Abstract: Selecting high-quality data for pre-training is crucial in shaping the downstream task performance of language models. A major challenge lies in identifying this optimal subset, a problem generally considered intractable, thus necessitating scalable and effective heuristics. In this work, we propose a data selection method, CoLoR-Filter (Conditional Loss Reduction Filtering), which leverages an empirical Bayes-inspired approach to derive a simple and computationally efficient selection criterion based on the relative loss values of two auxiliary models. In addition to the modeling rationale, we evaluate CoLoR-Filter empirically on two language modeling tasks: (1) selecting data from C4 for domain adaptation to evaluation on Books and (2) selecting data from C4 for a suite of downstream multiple-choice question answering tasks. We demonstrate favorable scaling both as we subselect more aggressively and using small auxiliary models to select data for large target models. As one headline result, CoLoR-Filter data selected using a pair of 150m parameter auxiliary models can train a 1.2b parameter target model to match a 1.2b parameter model trained on 25b randomly selected tokens with 25x less data for Books and 11x less data for the downstream tasks. Code: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
- Abstract(参考訳): 事前学習のための高品質なデータの選択は、言語モデルの下流タスク性能を形成する上で不可欠である。
最大の課題は、この最適部分集合を同定することであり、これは一般に難解であると考えられており、スケーラブルで効果的なヒューリスティックスを必要とする。
本研究では,2つの補助モデルの相対損失値に基づいて,ベイズに着想を得たデータ選択手法であるCoLoR-Filter(Conditional Loss Reduction Filtering)を提案する。
モデリングの理論的根拠に加えて,1) 書籍の評価に対するドメイン適応のためのC4からのデータ選択,2) 下流の複数の質問応答タスクのためのC4からのデータ選択という2つの言語モデリングタスクに対して,CoLoR-Filterを実証的に評価する。
我々は、より積極的にサブセレクトし、小さな補助モデルを用いて大きなターゲットモデルのためのデータを選択することにより、より良好なスケーリングを示す。
1つの見出し結果として、1組の150mパラメータ補助モデルを用いて選択されたCoLoR-Filterデータが1.2bパラメータターゲットモデルにトレーニングされ、ランダムに選択された25bトークン上でトレーニングされた1.2bパラメータモデルに一致し、書籍のデータは25倍少なく、下流タスクのデータは11倍少ない。
コード: https://github.com/davidbrandfonbrener/color-filter-olmo Filtered data: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
関連論文リスト
- ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - REFRESH: Responsible and Efficient Feature Reselection Guided by SHAP Values [17.489279048199304]
REFRESHは、いくつかの新しいモデルをトレーニングすることなく、モデルパフォーマンスに望ましい追加の制約を達成できるように、機能を再選択する手法である。
REFRESHの基盤となるアルゴリズムは、SHAP値と相関解析を用いて、モデルをトレーニングすることなくモデルの予測を近似できる新しい手法である。
論文 参考訳(メタデータ) (2024-03-13T18:06:43Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Beta-Rank: A Robust Convolutional Filter Pruning Method For Imbalanced
Medical Image Analysis [1.3443196224057659]
ディープニューラルネットワークには、多数のパラメータと操作が含まれている。
計算資源が限られているデバイス上でこれらのモデルを実装するのは困難である。
本研究では,フィルタの入力と出力を,不均衡なデータセットを扱うフィルタの値とともに考慮し,新しいフィルタプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-04-15T03:05:47Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z) - Training Compact CNNs for Image Classification using Dynamic-coded
Filter Fusion [139.71852076031962]
動的符号化フィルタ融合(DCFF)と呼ばれる新しいフィルタプルーニング法を提案する。
我々は、効率的な画像分類のために、計算経済的および正規化のない方法でコンパクトなCNNを導出する。
我々のDCFFは、72.77MのFLOPと1.06Mのパラメータしか持たないコンパクトなVGGNet-16を導出し、トップ1の精度は93.47%に達した。
論文 参考訳(メタデータ) (2021-07-14T18:07:38Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。