論文の概要: Optimal Scaling Needs Optimal Norm
- arxiv url: http://arxiv.org/abs/2510.03871v1
- Date: Sat, 04 Oct 2025 16:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.311809
- Title: Optimal Scaling Needs Optimal Norm
- Title(参考訳): 最適なスケーリングには最適なノームが必要だ
- Authors: Oleg Filatov, Jiangtao Wang, Jan Ebert, Stefan Kesselheim,
- Abstract要約: モデルとデータセットサイズをまたいだ共同最適スケーリングは、単一の不変量によって管理される。
最大138Bトークンでトレーニングされた最大1.3Bパラメータを持つモデル全体で、最適な学習率/バッチサイズ対$(etaast, Bast)$は同じ演算子ノルム値を持つ。
- 参考スコア(独自算出の注目度): 1.8180584498244492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in optimal hyperparameter transfer under model and dataset scaling, no unifying explanatory principle has been established. Using the Scion optimizer, we discover that joint optimal scaling across model and dataset sizes is governed by a single invariant: the operator norm of the output layer. Across models with up to 1.3B parameters trained on up to 138B tokens, the optimal learning rate/batch size pair $(\eta^{\ast}, B^{\ast})$ consistently has the same operator norm value - a phenomenon we term norm transfer. This constant norm condition is necessary but not sufficient: while for each dataset size, multiple $(\eta, B)$ reach the optimal norm, only a unique $(\eta^{\ast}, B^{\ast})$ achieves the best loss. As a sufficient condition, we provide the first measurement of $(\eta^{\ast}, B^{\ast})$ scaling with dataset size for Scion, and find that the scaling rules are consistent with those of the Adam optimizer. Tuning per-layer-group learning rates also improves model performance, with the output layer being the most sensitive and hidden layers benefiting from lower learning rates. We provide practical insights on norm-guided optimal scaling and release our Distributed Scion (Disco) implementation with logs from over two thousand runs to support research on LLM training dynamics at scale.
- Abstract(参考訳): モデルおよびデータセットスケーリング下での最適なハイパーパラメータ転送の最近の進歩にもかかわらず、統一的な説明原理は確立されていない。
Scionオプティマイザを用いて、モデルとデータセットサイズをまたいだ共同最適スケーリングが単一の不変量、すなわち出力層の演算ノルムによって管理されていることを発見した。
最大138Bトークンでトレーニングされた1.3Bパラメータを持つモデル全体で、最適な学習率/バッチサイズ対 $(\eta^{\ast}, B^{\ast})$ は同じ演算子ノルム値を持つ。
各データセットサイズに対して、複数の$(\eta, B)$が最適なノルムに達する一方で、ユニークな$(\eta^{\ast}, B^{\ast})$のみが最高の損失を達成する。
十分な条件として、Scionのデータセットサイズで$(\eta^{\ast}, B^{\ast})$スケーリングを初めて測定し、スケーリングルールがAdamオプティマイザのものと一致していることを確認する。
階層単位の学習率のチューニングはモデルのパフォーマンスも向上する。
我々は,標準誘導の最適スケーリングに関する実践的な洞察を提供し,LLMの大規模トレーニングダイナミクスの研究を支援するために,2000回以上のランニングのログを用いた分散シオン(Disco)実装をリリースする。
関連論文リスト
- Fantastic Pretraining Optimizers and Where to Find Them [59.56075036649332]
AdamWは長い間、言語モデルの事前訓練において支配的な勾配だった。
行列ベースの行列の高速化はモデルスケールに逆比例する。
論文 参考訳(メタデータ) (2025-09-02T07:43:22Z) - Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [39.25335214877435]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
我々は100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない経験的調査訓練を実施している。
ステップ法則(ステップ法)と呼ばれる,LLM事前学習におけるハイパーパラメータ最適化のための普遍的スケーリング法則を確立する。
我々の推定オプティマは, 排他的探索によって得られた世界最高の性能から, テストセットの0.094%しか逸脱しない。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - Lean and Mean Adaptive Optimization via Subset-Norm and Subspace-Momentum with Convergence Guarantees [5.399838579600896]
本稿では,大規模ニューラルネットワークのトレーニングを高速化しながら,メモリ要求を低減し,効率的な最適化を実現するための2つの補完的補完手法を提案する。
最初のテクニックであるSubset-m Step sizeは、ステップサイズの共有を通じてAdaGrad-NormとAdaGrad(-Norm)を一般化する。
第2の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースにモーメントすることで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit [1.8337746049048673]
事前トレーニングトークンの予算である$T$,$B$と、クリティカルバッチサイズである$B_mathrmcrit$との関係に、最適な$eta$スケーリングの複雑な依存性を示す。
驚くべきことに、観測された最適$eta$と$B$Dynamicsは、$mu$Pモデルスケーリングで保存されている。
論文 参考訳(メタデータ) (2024-10-08T09:06:34Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。