論文の概要: On the Optimizer Dependence of Neural Scaling Laws
- arxiv url: http://arxiv.org/abs/2605.29387v1
- Date: Thu, 28 May 2026 05:41:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.761082
- Title: On the Optimizer Dependence of Neural Scaling Laws
- Title(参考訳): ニューラルスケーリング法則の最適化依存性について
- Authors: Vansh Ramani, Shourya Vir Jain,
- Abstract要約: スケーリング指数$$は、ニューラルスケーリング法則において$L(N)propto N-$は、一般にアーキテクチャとデータによって固定定数として扱われる。
我々は$が体系的にスケールに依存するという証拠を提示する。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaling exponent $α$ in neural scaling laws $L(N) \propto N^{-α}$ is commonly treated as a fixed constant set by architecture and data. We present evidence that $α$ depends systematically on the optimizer. In controlled random-feature regression experiments -- the canonical theoretical framework for neural scaling -- we measure $α$ across five optimizer variants and six spectral conditions. Preconditioned optimizers consistently yield steeper scaling (larger $α$), with the $α$-shift increasing across most of the tested spectral range, peaking near $s = 1.5$, and remaining large at $s = 2.0$. At $s \approx 1.0$ (characteristic of natural language), the full natural gradient achieves $α\approx 0.31$ versus $α\approx 0.12$ for gradient descent -- a $2.6\times$ larger fitted exponent that, within the random-feature model, compounds with each model-size doubling. Whether and how this exponent shift transfers to large-scale LLM training -- where recent evidence suggests the advantage may attenuate with scale -- remains an important open question. Our results imply that scaling-law forecasts should account for optimizer choice, and we provide a spectral diagnostic predicting when advanced optimizers will pay off.
- Abstract(参考訳): ニューラルスケーリング法則におけるスケーリング指数$α$は、アーキテクチャとデータによって設定された固定定数として一般的に扱われる。
我々は、$α$がオプティマイザに体系的に依存する証拠を示す。
ニューラルスケーリングの標準的な理論フレームワークである制御ランダム機能回帰実験では、5つのオプティマイザ変種と6つのスペクトル条件のα$を測定します。
プリコンディショニングされたオプティマイザは、テスト対象のスペクトル範囲の大部分でα$-shiftが増加し、最大値は$s = 1.5$、残りは$s = 2.0$である。
$s \approx 1.0$(自然言語の特徴)では、完全な自然勾配は、勾配降下に対して$α\approx 0.31$に対して$α\approx 0.12$となる。
この指数シフトが大規模なLCMトレーニングにどのように移行するか – 最近の証拠では、その優位性はスケールで弱まる可能性がある – は、依然として重要なオープンな疑問である。
以上の結果から,スケーリング則予測はオプティマイザの選択を考慮すべきであることが示唆され,高度なオプティマイザがフェールするタイミングをスペクトル診断で予測する。
関連論文リスト
- How Neural Reward Models Learn Features for Policy Optimization: A Single-Index Analysis [53.063298916923976]
r*(x) = *(langle *, xrangle)$ と $x sim N(0, I_d)$ でガウスの単一インデックスモデルでフィードバックを研究する。
まず、報酬重み付きサンプルから隠れた方向を*$で学習し、次に重み付きリッジ回帰により読み出し層に適合する2段階のニューラル報酬モデルを分析する。
論文 参考訳(メタデータ) (2026-05-23T22:00:38Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Hyperparameter Transfer Enables Consistent Gains of Matrix-Preconditioned Optimizers Across Scales [55.91454326946738]
学習速度と減量率の最適化は,幅広い言語に対して,モデルの幅と深さでどのようにスケールするかを検討する。
我々は、$Pによる学習率のスケーリングは転送を改善するが、それでもかなりの有限幅偏差に悩まされる可能性があることを見出した。
計算-最適スケーリングでは、独立したウェイト崩壊が1/mathrmwidth$で言語間でほぼ最適であることが分かる。
論文 参考訳(メタデータ) (2025-12-05T11:03:41Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Sublinear Time Quantum Sensitivity Sampling [57.356528942341534]
本稿では、量子感応サンプリングのための統一的なフレームワークを提案し、量子コンピューティングの利点を古典近似問題の幅広いクラスに拡張する。
我々のフレームワークは、コアセットを構築するための合理化されたアプローチを提供し、クラスタリング、回帰、低ランク近似などのアプリケーションにおいて、大幅なランタイム改善を提供します。
論文 参考訳(メタデータ) (2025-09-20T20:18:49Z) - Time Transfer: On Optimal Learning Rate and Batch Size In The Infinite Data Limit [1.8337746049048673]
事前トレーニングトークンの予算である$T$,$B$と、クリティカルバッチサイズである$B_mathrmcrit$との関係に、最適な$eta$スケーリングの複雑な依存性を示す。
驚くべきことに、観測された最適$eta$と$B$Dynamicsは、$mu$Pモデルスケーリングで保存されている。
論文 参考訳(メタデータ) (2024-10-08T09:06:34Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。