論文の概要: Unraveling the Mystery of Scaling Laws: Part I
- arxiv url: http://arxiv.org/abs/2403.06563v1
- Date: Mon, 11 Mar 2024 10:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:31:21.909436
- Title: Unraveling the Mystery of Scaling Laws: Part I
- Title(参考訳): スケーリング法則の謎を解く:Part I
- Authors: Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai
- Abstract要約: 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。
1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
- 参考スコア(独自算出の注目度): 43.66120765823452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling law principles indicate a power-law correlation between loss and
variables such as model size, dataset size, and computational resources
utilized during training. These principles play a vital role in optimizing
various aspects of model pre-training, ultimately contributing to the success
of large language models such as GPT-4, Llama and Gemini. However, the original
scaling law paper by OpenAI did not disclose the complete details necessary to
derive the precise scaling law formulas, and their conclusions are only based
on models containing up to 1.5 billion parameters. Though some subsequent works
attempt to unveil these details and scale to larger models, they often neglect
the training dependency of important factors such as the learning rate, context
length and batch size, leading to their failure to establish a reliable formula
for predicting the test loss trajectory. In this technical report, we confirm
that the scaling law formulations proposed in the original OpenAI paper remain
valid when scaling the model size up to 33 billion, but the constant
coefficients in these formulas vary significantly with the experiment setup. We
meticulously identify influential factors and provide transparent, step-by-step
instructions to estimate all constant terms in scaling-law formulas by training
on models with only 1M~60M parameters. Using these estimated formulas, we
showcase the capability to accurately predict various attributes for models
with up to 33B parameters before their training, including (1) the minimum
possible test loss; (2) the minimum required training steps and processed
tokens to achieve a specific loss; (3) the critical batch size with an optimal
time/computation trade-off at any loss value; and (4) the complete test loss
trajectory with arbitrary batch size.
- Abstract(参考訳): 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
これらの原則はモデル事前学習の様々な側面を最適化する上で重要な役割を果たし、最終的にGPT-4、Llama、Geminiといった大規模言語モデルの成功に寄与する。
しかし、OpenAIの当初のスケーリング法論文は、正確なスケーリング法則を導出するために必要な完全な詳細を明らかにしておらず、その結論は15億のパラメータを含むモデルのみに基づいている。
その後の研究では、これらの詳細を明らかにして、より大きなモデルにスケールしようとするが、学習率、コンテキスト長、バッチサイズといった重要な要素のトレーニング依存性を無視することが多く、テスト損失軌跡を予測するための信頼性の高い公式の確立に失敗した。
本稿では,従来のOpenAI論文で提案されたスケーリング法則の定式化が,モデルサイズを最大33億までスケールする場合においても有効であることが確認されるが,これらの公式の定数係数は実験装置によって大きく異なる。
1M~60Mのパラメータしか持たないモデルでトレーニングすることで,有効な因子を慎重に同定し,拡張法則の全ての定数項を推定するための透過的,ステップバイステップの指示を与える。
これらの推定式を用いて,(1) テスト損失の最小値,(2) 特定の損失を達成するために必要最小限のトレーニングステップと処理トークン,(3) 任意の損失値において最適な時間/計算トレードオフを持つ臨界バッチサイズ,(4) 任意のバッチサイズでの完全なテスト損失軌跡など,トレーニング前に最大33bのパラメータを持つモデルの様々な属性を正確に予測する能力を示す。
関連論文リスト
- Language models scale reliably with over-training and on downstream
tasks [116.41529786970355]
スケーリング法則は言語モデルを開発する上で有用なガイドである。
現在のスケーリング研究と、言語モデルが最終的にトレーニングされ、評価される方法には、まだギャップがあります。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。