論文の概要: Language models scale reliably with over-training and on downstream
tasks
- arxiv url: http://arxiv.org/abs/2403.08540v1
- Date: Wed, 13 Mar 2024 13:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:11:01.655580
- Title: Language models scale reliably with over-training and on downstream
tasks
- Title(参考訳): 言語モデルはオーバートレーニングと下流で確実にスケールする
タスク
- Authors: Samir Yitzhak Gadre and Georgios Smyrnis and Vaishaal Shankar and
Suchin Gururangan and Mitchell Wortsman and Rulin Shao and Jean Mercat and
Alex Fang and Jeffrey Li and Sedrick Keh and Rui Xin and Marianna Nezhurina
and Igor Vasiljevic and Jenia Jitsev and Alexandros G. Dimakis and Gabriel
Ilharco and Shuran Song and Thomas Kollar and Yair Carmon and Achal Dave and
Reinhard Heckel and Niklas Muennighoff and Ludwig Schmidt
- Abstract要約: スケーリング法則は言語モデルを開発する上で有用なガイドである。
現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法には、まだギャップがあります。
- 参考スコア(独自算出の注目度): 116.41529786970355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling laws are useful guides for developing language models, but there are
still gaps between current scaling studies and how language models are
ultimately trained and evaluated. For instance, scaling is usually studied in
the compute-optimal training regime (i.e., "Chinchilla optimal" regime);
however, in practice, models are often over-trained to reduce inference costs.
Moreover, scaling laws mostly predict loss on next-token prediction, but
ultimately models are compared based on downstream task performance. In this
paper, we address both shortcomings. To do so, we create a testbed of 104
models with 0.011B to 6.9B parameters trained with various numbers of tokens on
three data distributions. First, we investigate scaling in the over-trained
regime. We fit scaling laws that extrapolate in both the number of model
parameters and the ratio of training tokens to parameters. This enables us to
predict the validation loss of a 1.4B parameter, 900B token run (i.e.,
32$\times$ over-trained) and a 6.9B parameter, 138B token
run$\unicode{x2014}$each from experiments that take 300$\times$ less compute.
Second, we relate the perplexity of a language model to its downstream task
performance via a power law. We use this law to predict top-1 error averaged
over downstream tasks for the two aforementioned models using experiments that
take 20$\times$ less compute. Our experiments are available at
https://github.com/mlfoundations/scaling.
- Abstract(参考訳): スケーリング法則は、言語モデルを開発する上で有用なガイドであるが、現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法との間にはまだギャップがある。
例えば、スケーリングは通常、計算最適トレーニング体制(すなわち「チンチラ最適」体制)で研究されるが、実際には推論コストを減らすためにモデルが過度に訓練されることが多い。
さらに、スケーリング法則は、主に次のトーケン予測における損失を予測するが、最終的には下流タスクのパフォーマンスに基づいてモデルを比較する。
本稿では,この2つの欠点に対処する。
そのために、0.011Bから6.9Bのパラメータを持つ104モデルのテストベッドを作成し、3つのデータ分布上のさまざまなトークンで訓練した。
まず,過度に訓練された体制におけるスケーリングについて検討する。
モデルパラメータの数とパラメータに対するトレーニングトークンの比率の両方を外挿するスケーリング法則に適合する。
これにより,11.4Bパラメータ,900Bトークン実行(32$\times$オーバートレーニング),6.9Bパラメータ,138Bトークン実行$\unicode{x2014}$eachの検証損失を,300$\times$少ない計算で予測することが可能になります。
第二に、言語モデルの難易度と、その下流タスク性能を電力法則により関連付ける。
この法則を用いて、上記の2つのモデルに対して、20$\times$より少ない計算を必要とする実験を用いて、ダウンストリームタスク上で平均化されたトップ1エラーを予測する。
実験はhttps://github.com/mlfoundations/scaling.comで公開しています。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [86.9540615081759]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Training Compute-Optimal Large Language Models [54.00424650998489]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。
計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。
チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文 参考訳(メタデータ) (2022-03-29T13:38:03Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。