論文の概要: Prescriptive Scaling Laws for Data Constrained Training
- arxiv url: http://arxiv.org/abs/2605.01640v1
- Date: Sat, 02 May 2026 23:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.862821
- Title: Prescriptive Scaling Laws for Data Constrained Training
- Title(参考訳): データ制約付きトレーニングのための規範的スケーリング法則
- Authors: Justin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger,
- Abstract要約: トレーニング計算は、高品質なデータの可用性をますます上回っている。
チンチラスケーリング法は、すべてのトレーニングトークンがユニークであると仮定する。
我々のスケーリング法則は、定性的に新しい計算-最適割り当てアドバイスをもたらす。
- 参考スコア(独自算出の注目度): 21.261009598515066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training compute is increasingly outpacing the availability of high-quality data. This shifts the central challenge from optimal compute allocation to extracting maximum value from limited data. The widely adopted Chinchilla scaling law assumes every training token is unique. This limits its ability to guide pretraining decisions in data-constrained regimes. We model the excess loss under repetition with a simple additive overfitting penalty and find that it accurately describes model behavior. Our scaling law yields qualitatively new compute-optimal allocation advice. Beyond a point, further repetition is counterproductive and compute is better spent on model capacity. We show that following our law's recommended configuration improves performance in data-constrained regimes. Finally, because our one-parameter form isolates overfitting in a single coefficient, it enables direct comparison across training configurations. As a case study, we show that strong weight decay ($λ=1.0$) reduces this coefficient by approximately 70%, providing a scaling-law explanation for recent findings that optimal weight decay in data-constrained regimes is an order of magnitude larger than standard practice.
- Abstract(参考訳): トレーニング計算は、高品質なデータの可用性をますます上回っている。
これにより、中央の課題は、最適な計算割り当てから、限られたデータから最大値の抽出へとシフトする。
広く採用されているチンチラスケーリング法は、すべてのトレーニングトークンがユニークであると仮定している。
これにより、データ制約のあるレシエーションにおける事前訓練決定をガイドする能力が制限される。
繰り返しの余剰損失を単純な加法的過剰適合ペナルティでモデル化し、モデル挙動を正確に記述する。
我々のスケーリング法則は、定性的に新しい計算-最適割り当てアドバイスをもたらす。
ポイントを超えて、さらなる反復は非生産的であり、計算はモデルのキャパシティに費やされる。
提案法に従えば,データ制約付きシステムの性能が向上することを示す。
最後に、我々の1パラメータ形式は1つの係数でオーバーフィッティングを分離するため、トレーニング構成を直接比較することができる。
ケーススタディでは、強いウェイト崩壊(λ=1.0$)は、この係数を約70%減少させ、データ制約状態における最適なウェイト崩壊が標準よりも桁違いに大きいという最近の知見に対するスケーリング法則を提示する。
関連論文リスト
- InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition [18.346630567592733]
LLMプリトレーニングにおける高品質なデータのアップウェイト化は、しばしば性能を改善するが、特に過度のトレーニング下では、より強力なアップウェイト化は繰り返しを増大させ、性能を低下させる可能性がある。
我々はInfoLawを紹介した。これは、消費トークン、モデルサイズ、データ混合重量、繰り返しからの損失を予測する、データ対応のスケーリングフレームワークである。
論文 参考訳(メタデータ) (2026-05-04T09:07:54Z) - Perplexity-Aware Data Scaling Law: Perplexity Landscapes Predict Performance for Continual Pre-training [46.54209378000497]
事前トレーニングのスケーリング法則は、データセットのサイズとLLMのテスト損失との間には、ゆるい関係がある。
本稿では,ドメイン固有データの難易度景観とテスト損失との予測的関係を確立するために,新しいパープレキシティ対応データスケーリング法を提案する。
本手法は, ほぼ最適トレーニングサブセットを一貫して同定し, 医用および一般のベンチマークにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-12-25T05:40:46Z) - Pre-training under infinite compute [87.02472603429936]
本研究では、エポック数の増加とパラメータ数の増加に対するデータ制約によるアプローチが、最終的には過度に適合することを示す。
独立に訓練されたモデルのアンサンブルは、正規化レシピよりもはるかに低損失の漸近を達成できる。
この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
論文 参考訳(メタデータ) (2025-09-18T09:36:23Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。