論文の概要: Unraveling the Mystery of Scaling Laws: Part I
- arxiv url: http://arxiv.org/abs/2403.06563v3
- Date: Fri, 5 Apr 2024 06:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 18:16:01.312933
- Title: Unraveling the Mystery of Scaling Laws: Part I
- Title(参考訳): スケーリング法則の謎を解き明かす:パート1
- Authors: Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai,
- Abstract要約: 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。
1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
- 参考スコア(独自算出の注目度): 39.967120253159614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling law principles indicate a power-law correlation between loss and variables such as model size, dataset size, and computational resources utilized during training. These principles play a vital role in optimizing various aspects of model pre-training, ultimately contributing to the success of large language models such as GPT-4, Llama and Gemini. However, the original scaling law paper by OpenAI did not disclose the complete details necessary to derive the precise scaling law formulas, and their conclusions are only based on models containing up to 1.5 billion parameters. Though some subsequent works attempt to unveil these details and scale to larger models, they often neglect the training dependency of important factors such as the learning rate, context length and batch size, leading to their failure to establish a reliable formula for predicting the test loss trajectory. In this technical report, we confirm that the scaling law formulations proposed in the original OpenAI paper remain valid when scaling the model size up to 33 billion, but the constant coefficients in these formulas vary significantly with the experiment setup. We meticulously identify influential factors and provide transparent, step-by-step instructions to estimate all constant terms in scaling-law formulas by training on models with only 1M~60M parameters. Using these estimated formulas, we showcase the capability to accurately predict various attributes for models with up to 33B parameters before their training, including (1) the minimum possible test loss; (2) the minimum required training steps and processed tokens to achieve a specific loss; (3) the critical batch size with an optimal time/computation trade-off at any loss value; and (4) the complete test loss trajectory with arbitrary batch size.
- Abstract(参考訳): 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
これらの原則はモデル事前学習の様々な側面を最適化する上で重要な役割を担い、最終的にGPT-4、Llama、Geminiといった大規模言語モデルの成功に寄与する。
しかし、OpenAIの当初のスケーリング法論文は、正確なスケーリング法則を導出するために必要な完全な詳細を明らかにしておらず、その結論は15億のパラメータを含むモデルのみに基づいている。
その後の研究では、これらの詳細を明らかにして、より大きなモデルにスケールしようとするが、学習率、コンテキスト長、バッチサイズといった重要な要素のトレーニング依存性を無視することが多く、テスト損失軌跡を予測するための信頼性の高い公式の確立に失敗した。
本稿では,従来のOpenAI論文で提案されたスケーリング法則の定式化が,モデルサイズを最大33億までスケールする場合においても有効であることが確認されるが,これらの公式の定数係数は実験装置によって大きく異なる。
1M~60Mのパラメータしか持たないモデルでトレーニングすることで,有効な因子を慎重に同定し,拡張法則の全ての定数項を推定するための透過的,ステップバイステップの指示を与える。
これらの推定式を用いて,(1)最小限のテスト損失の最小化,(2)特定の損失を達成するために必要な最小限のトレーニングステップと処理トークン,(3)任意の損失値で最適時間/計算トレードオフを持つクリティカルバッチサイズ,(4)任意のバッチサイズを持つ完全テスト損失軌跡など,トレーニング前に最大33Bパラメータのモデルに対して,様々な属性を正確に予測する能力を示す。
関連論文リスト
- Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Scaling Laws For Diffusion Transformers [27.180452052901146]
拡散トランス (DiT) は, コンテンツレクリエーションにおいて魅力的な合成とスケーリング特性を達成している。
DiTのスケーリング法則は調査されていないため、通常は最適なモデルサイズとデータ要求に関する正確な予測を提供する。
1e17から6e18 FLOP までの幅広い計算予算の実験を行い、DiT におけるスケーリング法則の存在を確認する。
論文 参考訳(メタデータ) (2024-10-10T17:56:03Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。