論文の概要: AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs
- arxiv url: http://arxiv.org/abs/2407.20177v4
- Date: Sun, 06 Apr 2025 03:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:18.561309
- Title: AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs
- Title(参考訳): AutoScale: 事前トレーニングLLMのためのスケールアウェアデータ混合
- Authors: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia,
- Abstract要約: より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
- 参考スコア(独自算出の注目度): 61.13296177652599
- License:
- Abstract: Domain reweighting is an emerging research area aimed at adjusting the relative weights of different data sources to improve the effectiveness and efficiency of LLM pre-training. We show that data mixtures that perform well at smaller scales may not retain their advantage at larger scales, challenging the existing practice of determining competitive mixtures in small-scale experiments and directly applying them at much larger scales. To address this, we propose AutoScale, a two-stage, scale-aware data composition framework. First, AutoScale fits a parametric model that predicts the model's loss under different data compositions, then uses it to find an approximate best allocation at smaller, more manageable budgets. Next, leveraging a novel theoretical analysis of how optimal compositions evolve with scale, AutoScale extrapolates that composition to larger budgets without further retraining. Empirically, AutoScale accelerates convergence and improves downstream performance. For instance, when pre-training GPT-2 Large, it achieves a 28% faster perplexity reduction than baselines and up to a 38% speed-up over unweighted training, while yielding best-average results on various downstream tasks. Overall, our findings illustrate how domain importance shifts with training scale, underscoring the need for scale-dependent data curation in LLM training. Our code is open-sourced.
- Abstract(参考訳): ドメイン再重み付け(Domain reweighting)は、異なるデータソースの相対的な重み付けを調整し、LLM事前トレーニングの有効性と効率を改善することを目的とした、新たな研究分野である。
我々は,小規模実験において競合混合物を決定する既存の手法に挑戦し,より大規模な実験で直接適用するという従来の手法に挑戦し,小規模な実験で良好に機能するデータ混合物は,その優位性を維持することができないことを示した。
これを解決するために,2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
まずAutoScaleは、異なるデータ構成下でモデルの損失を予測するパラメトリックモデルに適合し、それを使用して、より小さく、より管理可能な予算で、近似した最適なアロケーションを見つける。
次に、最適な構成がスケールでどのように進化するかという新しい理論分析を活用して、AutoScaleはその構成をさらなる再訓練なしにより大きな予算に外挿する。
実証的に、AutoScaleは収束を加速し、下流のパフォーマンスを改善する。
例えば、GPT-2 Largeの事前トレーニングでは、ベースラインよりも28%、アンウェイトトレーニングよりも38%のスピードアップを実現し、ダウンストリームタスクでは平均的な結果が得られる。
以上の結果から,LLMトレーニングにおけるスケール依存型データキュレーションの必要性を浮き彫りにした。
私たちのコードはオープンソースです。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Optimizing importance weighting in the presence of sub-population shifts [0.0]
トレーニングデータとテストデータの間の分散シフトは、機械学習モデルの性能を著しく損なう可能性がある。
トレーニングデータの有限標本サイズによる推定モデルのばらつきの増大を無視するため,既存の重み付けは準最適であると主張する。
重みとモデルパラメータを同時に最適化する二段階最適化手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T09:21:10Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Trainable Weight Averaging: Accelerating Training and Improving Generalization [35.17919937007783]
提案手法は,候補重みを対象とする減量部分空間内で動作する新しい最適化手法であるTWAを導入する。
TWAは柔軟性が高く、異なるトレーニングシナリオに適用できる。
大規模アプリケーションでは,並列計算と低ビット圧縮を組み合わせた分散トレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T01:54:48Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。