論文の概要: MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models
- arxiv url: http://arxiv.org/abs/2406.06046v2
- Date: Sat, 16 Nov 2024 02:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:56.120584
- Title: MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models
- Title(参考訳): MATES:データ影響モデルによる効率的な事前学習のためのモデル認識データ選択
- Authors: Zichun Yu, Spandan Das, Chenyan Xiong,
- Abstract要約: 手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
データ影響モデル(MATES)を用いたモデル認識データ選択を導入し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、現在の事前学習の進行に最も有効なデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 16.654859430784825
- License:
- Abstract: Pretraining data selection has the potential to improve language model pretraining efficiency by utilizing higher-quality data from massive web data corpora. Current data selection methods, which rely on either hand-crafted rules or larger reference models, are conducted statically and do not capture the evolving data preferences during pretraining. In this paper, we introduce model-aware data selection with data influence models (MATES), where a data influence model continuously adapts to the evolving data preferences of the pretraining model and then selects the data most effective for the current pretraining progress. Specifically, we collect oracle data influence by locally probing the pretraining model and fine-tune a small data influence model to approximate it accurately. The data influence model then predicts data influence over the whole pretraining corpus and selects the most influential data for the next pretraining stage. Experiments of pretraining 410M and 1B models on the C4 dataset demonstrate that MATES significantly outperforms random data selection on extensive downstream tasks. It doubles the gains achieved by the state-of-the-art data selection approach that leverages larger reference models and reduces the total FLOPs required to reach certain performances by half. Further analyses validate the effectiveness of the locally probed oracle data influence and the approximation with data influence models. Our code is open-sourced at https://github.com/cxcscmu/MATES.
- Abstract(参考訳): 事前学習データの選択は、大量のWebデータコーパスから高品質なデータを活用することにより、言語モデルの事前学習効率を向上させる可能性がある。
手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
本稿では、データ影響モデル(MATES)を用いたモデル認識データ選択について紹介し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、次に、現在の事前学習の進行に最も有効なデータを選択する。
具体的には、事前学習モデルを局所的に探索し、小さなデータの影響モデルを微調整して正確な近似を行うことで、オラクルデータの影響を収集する。
次に、データ影響モデルが事前学習コーパス全体に対するデータ影響を予測し、次の事前学習段階で最も影響力のあるデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
これは、より大きな参照モデルを活用する最先端のデータ選択アプローチによって達成されるゲインを2倍にし、特定のパフォーマンスに到達するために必要な合計FLOPを半分に削減する。
さらに、局所的に探索されたオラクルデータの影響とデータ影響モデルによる近似の有効性を検証した。
私たちのコードはhttps://github.com/cxcscmu/MATES.comでオープンソース化されています。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Maximizing V-information for Pre-training Superior Foundation Models [14.78688545049181]
大規模データセットの事前トレーニング基盤モデルは、例外的なパフォーマンスを示している。
最近の研究では、事前学習データの増加がモデル性能の向上につながるかどうかが疑問視されている。
V情報の最大化のための最適データ効率学習法を開発した。
論文 参考訳(メタデータ) (2024-08-13T10:28:54Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - On the Complementarity of Data Selection and Fine Tuning for Domain
Adaptation [22.178874891042994]
ニューラルネットワークのドメイン適応は通常、事前トレーニング、選択されたデータトレーニング、そして微調整という3つのトレーニングフェーズに依存している。
データ選択は、ターゲットドメインデータの小さなサンプルに依存して特定された事前訓練データに基づいて、さらにトレーニングすることで、ターゲットドメインの一般化を改善する。
論文 参考訳(メタデータ) (2021-09-15T21:49:06Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。