論文の概要: Pre-training under infinite compute
- arxiv url: http://arxiv.org/abs/2509.14786v1
- Date: Thu, 18 Sep 2025 09:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.149214
- Title: Pre-training under infinite compute
- Title(参考訳): 無限計算による事前学習
- Authors: Konwoo Kim, Suhas Kotha, Percy Liang, Tatsunori Hashimoto,
- Abstract要約: 本研究では、エポック数の増加とパラメータ数の増加に対するデータ制約によるアプローチが、最終的には過度に適合することを示す。
独立に訓練されたモデルのアンサンブルは、正規化レシピよりもはるかに低損失の漸近を達成できる。
この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
- 参考スコア(独自算出の注目度): 87.02472603429936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since compute grows much faster than web text available for language model pre-training, we ask how one should approach pre-training under fixed data and no compute constraints. We first show that existing data-constrained approaches of increasing epoch count and parameter count eventually overfit, and we significantly improve upon such recipes by properly tuning regularization, finding that the optimal weight decay is $30\times$ larger than standard practice. Since our regularized recipe monotonically decreases loss following a simple power law in parameter count, we estimate its best possible performance via the asymptote of its scaling law rather than the performance at a fixed compute budget. We then identify that ensembling independently trained models achieves a significantly lower loss asymptote than the regularized recipe. Our best intervention combining epoching, regularization, parameter scaling, and ensemble scaling achieves an asymptote at 200M tokens using $5.17\times$ less data than our baseline, and our data scaling laws predict that this improvement persists at higher token budgets. We find that our data efficiency gains can be realized at much smaller parameter counts as we can distill an ensemble into a student model that is 8$\times$ smaller and retains $83\%$ of the ensembling benefit. Finally, our interventions designed for validation loss generalize to downstream benchmarks, achieving a $9\%$ improvement for pre-training evals and a $17.5\times$ data efficiency improvement over continued pre-training on math mid-training data. Our results show that simple algorithmic improvements can enable significantly more data-efficient pre-training in a compute-rich future.
- Abstract(参考訳): 言語モデルの事前学習で利用可能なWebテキストよりも高速に計算が成長するので、固定データの下で事前学習し、計算制約を伴わないようにする方法を問う。
まず,エポック数の増加とパラメータ数の増加という既存のデータ制約のアプローチが,結局は過度に適合することを示すとともに,正規化を適切に調整することで,最適重量減衰が標準法より30\times$大きいことを明らかにする。
規則化されたレシピはパラメータ数における単純な電力法則に従って損失を単調に減少させるので、固定された計算予算における性能よりも、そのスケーリング法則の漸近によって最大限の性能を推定する。
次に、独立に訓練されたモデルのアンサンブルにより、正規化レシピよりもはるかに低損失の漸近が得られることを確認した。
Epoching、正規化、パラメータスケーリング、アンサンブルスケーリングを組み合わせた最良の介入は、ベースラインよりも5.17\times$安いデータを使用して、200万トークンで漸近的に達成します。
我々のデータ効率の利得は、より小さなパラメータ数で実現でき、それは、アンサンブルを8$\times$より小さくし、アンサンブルの利益の833\%を保っている学生モデルに蒸留できるからである。
最後に、検証損失のために設計された介入は、ダウンストリームベンチマークに一般化され、事前トレーニングのevalに対して9\%$改善され、17.5\times$データ効率の改善が、数学の中間トレーニングデータに対する継続事前トレーニングよりも達成される。
この結果から,計算量の多い将来において,よりデータ効率の高い事前学習が実現できることが示唆された。
関連論文リスト
- Less is More: Convergence Benefits of Fewer Data Weight Updates over Longer Horizon [42.1998022417145]
我々は、データ混合の収束挙動を有限個の内部ステップ$T$で解析する。
最適な$T$は$(log N)$ (resp., $((N log N)1/2)$)としてスケールし、完全なアクセスを伴うデータ混合の問題を示す。
論文 参考訳(メタデータ) (2026-02-23T04:50:13Z) - NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization [42.298647858844895]
対照的な損失における正規化項の正確な推定は、コントラスト言語-画像事前学習モデルにおける中心的な課題である。
提案するNeuCLIPは,2つの鍵となるアイデアに基づく,斬新でエレガントな最適化フレームワークである。
数百万から数十億のサンプルのデータセットにまたがる大規模CLIPトレーニングの実験は、NeuCLIPが従来の方法より優れていることを実証している。
論文 参考訳(メタデータ) (2025-11-11T16:27:51Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Scaling Data-Constrained Language Models [133.2083255645999]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文 参考訳(メタデータ) (2021-02-02T04:07:38Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。