論文の概要: Towards Robust Scaling Laws for Optimizers
- arxiv url: http://arxiv.org/abs/2602.07712v1
- Date: Sat, 07 Feb 2026 21:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.771909
- Title: Towards Robust Scaling Laws for Optimizers
- Title(参考訳): 最適化のためのロバストスケーリング法則に向けて
- Authors: Alexandra Volkova, Mher Safaryan, Christoph H. Lampert, Dan Alistarh,
- Abstract要約: 経験的スケーリング法則は、モデルのサイズやトレーニングデータの増加に伴って損失を予測するために広く使用されている。
本研究では, 損失分解を既約, 近似, 最適化誤差に分解した結果, チンチラ方式のスケーリング法則が自然に現れることを示す。
- 参考スコア(独自算出の注目度): 89.21160945066737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of Large Language Model (LLM) pretraining depends on multiple factors, including the compute budget and the choice of optimization algorithm. Empirical scaling laws are widely used to predict loss as model size and training data grow, however, almost all existing studies fix the optimizer (typically AdamW). At the same time, a new generation of optimizers (e.g., Muon, Shampoo, SOAP) promises faster and more stable convergence, but their relationship with model and data scaling is not yet well understood. In this work, we study scaling laws across different optimizers. Empirically, we show that 1) separate Chinchilla-style scaling laws for each optimizer are ill-conditioned and have highly correlated parameters. Instead, 2) we propose a more robust law with shared power-law exponents and optimizer-specific rescaling factors, which enable direct comparison between optimizers. Finally, 3) we provide a theoretical analysis of gradient-based methods for the proxy task of a convex quadratic objective, demonstrating that Chinchilla-style scaling laws emerge naturally as a result of loss decomposition into irreducible, approximation, and optimization errors.
- Abstract(参考訳): LLM(Large Language Model)の事前トレーニングの品質は、計算予算や最適化アルゴリズムの選択など、複数の要因に依存する。
経験的スケーリング法則は、モデルのサイズやトレーニングデータの増加に伴って損失を予測するために広く使用されているが、既存のほとんどの研究はオプティマイザ(典型的にはAdamW)を修正している。
同時に、新しい世代のオプティマイザ(例えば、Muon、Shampoo、SOAP)は、より速くより安定した収束を約束しますが、モデルとデータスケーリングとの関係はまだよく理解されていません。
本研究では,異なるオプティマイザ間のスケーリング法則について検討する。
経験的に言えば
1) 各オプティマイザに対するチンチラスタイルのスケーリング法則は不条件であり,高い相関パラメータを有する。
代わりに
2) パワーロー指数とオプティマイザ固有の再スケーリング因子を共用したより堅牢な法則を提案し,オプティマイザ間の直接比較を可能にする。
最後に
3) コンベックス2次目的のプロキシタスクの勾配に基づく手法の理論解析を行い, 損失分解を既約, 近似, 最適化誤差に分解した結果, チンチラスタイルのスケーリング法則が自然に現れることを示した。
関連論文リスト
- Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。