論文の概要: Scaling Laws for Optimal Data Mixtures
- arxiv url: http://arxiv.org/abs/2507.09404v1
- Date: Sat, 12 Jul 2025 21:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.154279
- Title: Scaling Laws for Optimal Data Mixtures
- Title(参考訳): 最適データ混合のスケーリング法則
- Authors: Mustafa Shukor, Louis Bethune, Dan Busbridge, David Grangier, Enrico Fini, Alaaeldin El-Nouby, Pierre Ablin,
- Abstract要約: スケーリング法則を用いて、任意の対象領域に対して最適なデータ混合を決定するための体系的手法を提案する。
我々は,これらのスケーリング法則の普遍性を,その予測力を3つの異なる大規模設定で示すことによって検証する。
- 参考スコア(独自算出の注目度): 30.981047302765138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large foundation models are typically trained on data from multiple domains, with the data mixture--the proportion of each domain used--playing a critical role in model performance. The standard approach to selecting this mixture relies on trial and error, which becomes impractical for large-scale pretraining. We propose a systematic method to determine the optimal data mixture for any target domain using scaling laws. Our approach accurately predicts the loss of a model of size $N$ trained with $D$ tokens and a specific domain weight vector $h$. We validate the universality of these scaling laws by demonstrating their predictive power in three distinct and large-scale settings: large language model (LLM), native multimodal model (NMM), and large vision models (LVM) pretraining. We further show that these scaling laws can extrapolate to new data mixtures and across scales: their parameters can be accurately estimated using a few small-scale training runs, and used to estimate the performance at larger scales and unseen domain weights. The scaling laws allow to derive the optimal domain weights for any target domain under a given training budget ($N$,$D$), providing a principled alternative to costly trial-and-error methods.
- Abstract(参考訳): 大規模な基盤モデルは、通常、複数のドメインのデータに基づいて訓練される。
この混合物を選択するための標準的なアプローチは試行錯誤に依存しており、大規模な事前訓練には実用的ではない。
スケーリング法則を用いて、任意の対象領域に対して最適なデータ混合を決定するための体系的手法を提案する。
我々の手法は、D$トークンと特定のドメイン重みベクトル$h$で訓練されたサイズ$N$の損失を正確に予測する。
我々は,これらのスケーリング法則の普遍性を,大言語モデル(LLM),ネイティブマルチモーダルモデル(NMM),大規模ビジョンモデル(LVM)の3つの異なる大規模設定で示すことによって検証する。
さらに、これらのスケーリング法則は、新しいデータ混合やスケール全体へのエクスポーラが可能であることを示し、それらのパラメータは、いくつかの小規模トレーニングランを使用して正確に推定することができ、より大きなスケールと見当たらないドメイン重みでのパフォーマンスを推定するために使用される。
スケーリング法は、与えられたトレーニング予算(N$,$D$)の下で、任意の対象ドメインに対して最適なドメイン重み付けを導出することができる。
関連論文リスト
- DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文 参考訳(メタデータ) (2025-04-15T17:02:15Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
本研究では,100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない実証的研究を行った。
我々は、固定モデルサイズ(N$)とデータセットサイズ(D$)で、ハイパーパラメータのランドスケープは広い最適度で凸性を示すことを実証的に観察した。
この洞察に基づいて、我々はステップ法を正式に定義し、実証的に検証する: 最適な学習レートは、$N$と$D$との関係に従うが、最適なバッチサイズは、主に$D$の影響を受け、主に$N$に不変である。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [148.90031913522648]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。
DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。
次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-05-17T17:58:13Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。