論文の概要: Beyond the Ideal: Analyzing the Inexact Muon Update
- arxiv url: http://arxiv.org/abs/2510.19933v1
- Date: Wed, 22 Oct 2025 18:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.621483
- Title: Beyond the Ideal: Analyzing the Inexact Muon Update
- Title(参考訳): 理想を超えて:不正確なミューオンアップデートを分析する
- Authors: Egor Shulgin, Sultan AlRashed, Francesco Orabona, Peter Richtárik,
- Abstract要約: 本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
- 参考スコア(独自算出の注目度): 54.70108543057578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer has rapidly emerged as a powerful, geometry-aware alternative to AdamW, demonstrating strong performance in large-scale training of neural networks. However, a critical theory-practice disconnect exists: Muon's efficiency relies on fast, approximate orthogonalization, yet all prior theoretical work analyzes an idealized, computationally intractable version assuming exact SVD-based updates. This work moves beyond the ideal by providing the first analysis of the inexact orthogonalized update at Muon's core. We develop our analysis within the general framework of Linear Minimization Oracle (LMO)-based optimization, introducing a realistic additive error model to capture the inexactness of practical approximation schemes. Our analysis yields explicit bounds that quantify performance degradation as a function of the LMO inexactness/error. We reveal a fundamental coupling between this inexactness and the optimal step size and momentum: lower oracle precision requires a smaller step size but larger momentum parameter. These findings elevate the approximation procedure (e.g., the number of Newton-Schulz steps) from an implementation detail to a critical parameter that must be co-tuned with the learning schedule. NanoGPT experiments directly confirm the predicted coupling, with optimal learning rates clearly shifting as approximation precision changes.
- Abstract(参考訳): Muonオプティマイザは、AdamWの強力な幾何学的な代替品として急速に登場し、ニューラルネットワークの大規模トレーニングにおいて強力なパフォーマンスを示している。
ミューンの効率は高速で近似的な直交化に依存しているが、以前のすべての理論的研究は、SVDベースの正確な更新を仮定して、理想化され計算的に難解なバージョンを分析する。
この研究は、ムオンのコアにおける不正確な直交更新の最初の分析を提供することで、イデアルを超えて進んでいる。
我々はLinear Minimization Oracle (LMO) をベースとした最適化の一般的な枠組みの中で,現実的な付加的誤りモデルを導入し,現実的な近似スキームの不正確さを捉える。
我々の分析は、LMOの不正確さ/エラーの関数として性能劣化を定量化する明示的な境界を導出する。
この不正確さと最適なステップサイズと運動量の間には、基本的な結合関係が明らかになる: より低いオラクル精度は、より小さいステップサイズを必要とするが、より大きい運動量パラメータを必要とする。
これらの知見は、実装の詳細から学習スケジュールと共学しなければならない臨界パラメータまで近似手順(例えば、ニュートン・シュルツのステップ数)を上昇させる。
ナノGPT実験は予測結合を直接確認し、近似精度が変化するにつれて最適な学習速度が明らかに変化する。
関連論文リスト
- HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - Understanding Optimization in Deep Learning with Central Flows [95.5647720254338]
複雑な状態における最適化のダイナミクスを記述できる理論を開発する。
この結果から,ディープラーニングの最適化を推論する上で,中央フローが重要な理論ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Jacobian-Enhanced Neural Networks [0.0]
ヤコビアン強化ニューラルネットワーク(JENN)は密結合多層パーセプトロンである。
JENNの主な利点は、標準のニューラルネットワークに比べてトレーニングポイントが少なくて精度が良いことである。
論文 参考訳(メタデータ) (2024-06-13T14:04:34Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - Meta Hamiltonian Learning [0.0]
我々はメタラーニングとして知られる機械学習技術を用いて、このタスクのより効率的なドリフトを学習する。
メタ最適化器は,テストサンプルの平均損失において,他の最適化手法よりも優れていた。
論文 参考訳(メタデータ) (2021-04-09T16:01:34Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。