Fugu-MT 論文翻訳(概要): Unraveling the Mystery of Scaling Laws: Part I

論文の概要: Unraveling the Mystery of Scaling Laws: Part I

arxiv url: http://arxiv.org/abs/2403.06563v1
Date: Mon, 11 Mar 2024 10:05:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 19:31:21.909436
Title: Unraveling the Mystery of Scaling Laws: Part I
Title（参考訳）: スケーリング法則の謎を解く:Part I
Authors: Hui Su, Zhi Tian, Xiaoyu Shen, Xunliang Cai
Abstract要約: 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。 OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。 1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
参考スコア（独自算出の注目度）: 43.66120765823452
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling law principles indicate a power-law correlation between loss and variables such as model size, dataset size, and computational resources utilized during training. These principles play a vital role in optimizing various aspects of model pre-training, ultimately contributing to the success of large language models such as GPT-4, Llama and Gemini. However, the original scaling law paper by OpenAI did not disclose the complete details necessary to derive the precise scaling law formulas, and their conclusions are only based on models containing up to 1.5 billion parameters. Though some subsequent works attempt to unveil these details and scale to larger models, they often neglect the training dependency of important factors such as the learning rate, context length and batch size, leading to their failure to establish a reliable formula for predicting the test loss trajectory. In this technical report, we confirm that the scaling law formulations proposed in the original OpenAI paper remain valid when scaling the model size up to 33 billion, but the constant coefficients in these formulas vary significantly with the experiment setup. We meticulously identify influential factors and provide transparent, step-by-step instructions to estimate all constant terms in scaling-law formulas by training on models with only 1M~60M parameters. Using these estimated formulas, we showcase the capability to accurately predict various attributes for models with up to 33B parameters before their training, including (1) the minimum possible test loss; (2) the minimum required training steps and processed tokens to achieve a specific loss; (3) the critical batch size with an optimal time/computation trade-off at any loss value; and (4) the complete test loss trajectory with arbitrary batch size.
Abstract（参考訳）: 法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。これらの原則はモデル事前学習の様々な側面を最適化する上で重要な役割を果たし、最終的にGPT-4、Llama、Geminiといった大規模言語モデルの成功に寄与する。しかし、OpenAIの当初のスケーリング法論文は、正確なスケーリング法則を導出するために必要な完全な詳細を明らかにしておらず、その結論は15億のパラメータを含むモデルのみに基づいている。その後の研究では、これらの詳細を明らかにして、より大きなモデルにスケールしようとするが、学習率、コンテキスト長、バッチサイズといった重要な要素のトレーニング依存性を無視することが多く、テスト損失軌跡を予測するための信頼性の高い公式の確立に失敗した。本稿では,従来のOpenAI論文で提案されたスケーリング法則の定式化が,モデルサイズを最大33億までスケールする場合においても有効であることが確認されるが,これらの公式の定数係数は実験装置によって大きく異なる。 1M~60Mのパラメータしか持たないモデルでトレーニングすることで,有効な因子を慎重に同定し,拡張法則の全ての定数項を推定するための透過的,ステップバイステップの指示を与える。これらの推定式を用いて,(1) テスト損失の最小値,(2) 特定の損失を達成するために必要最小限のトレーニングステップと処理トークン,(3) 任意の損失値において最適な時間/計算トレードオフを持つ臨界バッチサイズ,(4) 任意のバッチサイズでの完全なテスト損失軌跡など,トレーニング前に最大33bのパラメータを持つモデルの様々な属性を正確に予測する能力を示す。

関連論文リスト

Scaling Law Analysis in Federated Learning: How to Select the Optimal Model Size? [12.791994483385409]
高品質で精度の高いトレーニングデータの枯渇に対する懸念が高まっている。 Federated Learningにおけるトレーニングデータセットの分散化は、大規模なモデルをスケールする上での課題を導入している。本稿では,従来のモデルスケーリング体験をフェデレートした学習シナリオに一般化するための洞察を提供する。
論文参考訳（メタデータ） (2025-11-15T12:41:25Z)
Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。我々はMorph-1Bモデルをリリースし、オープンソースモデルと比較して下流タスクの精度を保ちながら、推論遅延を1.8倍改善した。
論文参考訳（メタデータ） (2025-01-30T03:16:44Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-12-02T13:58:35Z)
Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文参考訳（メタデータ） (2024-11-07T00:10:10Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Scaling Laws For Diffusion Transformers [27.180452052901146]
拡散トランス (DiT) は, コンテンツレクリエーションにおいて魅力的な合成とスケーリング特性を達成している。 DiTのスケーリング法則は調査されていないため、通常は最適なモデルサイズとデータ要求に関する正確な予測を提供する。 1e17から6e18 FLOP までの幅広い計算予算の実験を行い、DiT におけるスケーリング法則の存在を確認する。
論文参考訳（メタデータ） (2024-10-10T17:56:03Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文参考訳（メタデータ） (2023-09-15T16:29:27Z)
Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。再設計したモデルにより、下流の微調整品質が向上する。
論文参考訳（メタデータ） (2021-09-22T12:29:15Z)
Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文参考訳（メタデータ） (2021-06-11T18:59:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。