論文の概要: Language Models Improve When Pretraining Data Matches Target Tasks
- arxiv url: http://arxiv.org/abs/2507.12466v1
- Date: Wed, 16 Jul 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.516882
- Title: Language Models Improve When Pretraining Data Matches Target Tasks
- Title(参考訳): ターゲットタスクにマッチするデータの事前学習時に言語モデルが改善される
- Authors: David Mizrahi, Anders Boesen Lindbo Larsen, Jesse Allardice, Suzie Petryk, Yuri Gorokhov, Jeffrey Li, Alex Fang, Josh Gardner, Tom Gunter, Afshin Dehghan,
- Abstract要約: BETRは、ベンチマークトレーニングの例と類似性に基づいて、事前学習した文書を選択する方法である。
データ選択の方法は1019ドルから1022ドルのFLOPにまたがる500以上のモデルをトレーニングし、それらをスケーリング法則に適合させることで比較する。
BETRはDCLM-Baseline上で2.1倍の計算乗算を実現し,全スケールで10タスク中9タスクの性能向上を実現している。
- 参考スコア(独自算出の注目度): 8.935657480912282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every data selection method inherently has a target. In practice, these targets often emerge implicitly through benchmark-driven iteration: researchers develop selection strategies, train models, measure benchmark performance, then refine accordingly. This raises a natural question: what happens when we make this optimization explicit? To explore this, we propose benchmark-targeted ranking (BETR), a simple method that selects pretraining documents based on similarity to benchmark training examples. BETR embeds benchmark examples and a sample of pretraining documents in a shared space, scores this sample by similarity to benchmarks, then trains a lightweight classifier to predict these scores for the full corpus. We compare data selection methods by training over 500 models spanning $10^{19}$ to $10^{22}$ FLOPs and fitting scaling laws to them. From this, we find that simply aligning pretraining data to evaluation benchmarks using BETR achieves a 2.1x compute multiplier over DCLM-Baseline (4.7x over unfiltered data) and improves performance on 9 out of 10 tasks across all scales. BETR also generalizes well: when targeting a diverse set of benchmarks disjoint from our evaluation suite, it still matches or outperforms baselines. Our scaling analysis further reveals a clear trend: larger models require less aggressive filtering. Overall, our findings show that directly matching pretraining data to target tasks precisely shapes model capabilities and highlight that optimal selection strategies must adapt to model scale.
- Abstract(参考訳): すべてのデータ選択方法は本質的にターゲットを持つ。
研究者は選択戦略を開発し、モデルを訓練し、ベンチマークのパフォーマンスを測定し、それに従って洗練する。
この最適化を明示するとどうなるのか?
そこで本研究では,ベンチマーク学習例と類似性に基づいて事前学習文書を選択する簡易な手法であるベンチマーク目標ランキング(BETR)を提案する。
BETRは、ベンチマークサンプルと、共有スペースに事前トレーニングされた文書のサンプルを埋め込み、このサンプルをベンチマークと類似度でスコアし、軽量な分類器をトレーニングして、これらのスコアを全コーパスで予測する。
10^{19}$10^{22}$10^{22}$ FLOPにまたがる500以上のモデルをトレーニングし、スケーリング法則を適合させることにより、データ選択手法を比較した。
この結果から,BETRを用いた事前学習データを評価ベンチマークに合わせるだけで,DCLM-Baseline (4.7倍) 上の2.1倍の計算乗算が達成され,全スケールにわたる10タスク中9タスクのパフォーマンスが向上することがわかった。
さまざまなベンチマークの集合が評価スイートから切り離されている場合、それは依然としてベースラインにマッチするか、上回っている。
当社のスケーリング分析では,より大規模なモデルではアグレッシブなフィルタリングが不要である,という明確な傾向も明らかにしています。
以上の結果から,目標タスクに対する事前学習データとの直接マッチングがモデル能力を正確に形成し,最適選択戦略がモデルスケールに適応する必要があることが示唆された。
関連論文リスト
- Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。
本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。
PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文 参考訳(メタデータ) (2025-05-21T13:26:56Z) - Coreset Selection via LLM-based Concept Bottlenecks [6.857632954159568]
Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータセットのサブセットを特定することを目的としている。
本研究は,ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて,サンプルの難易度を計算するスコアを提案する。
我々のコアセットは高いプルーニングレートでもランダムなサブセットよりも優れており、動的手法を訓練することによって得られるコアセットに匹敵するモデル性能を実現している。
論文 参考訳(メタデータ) (2025-02-23T22:14:42Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Classifier Transfer with Data Selection Strategies for Online Support
Vector Machine Classification with Class Imbalance [1.2599533416395767]
我々は、格納されたトレーニングデータのサイズを制限するデータ選択戦略に焦点を当てる。
データ選択基準の正しい組み合わせを用いることで、分類器を適応させ、性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-08-10T02:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。