論文の概要: Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence
- arxiv url: http://arxiv.org/abs/2605.13079v1
- Date: Wed, 13 May 2026 06:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.857911
- Title: Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence
- Title(参考訳): スペクトルフレッテニングは、すべてミューオン: 直交化が学習率と収束をいかに制御するか
- Authors: Tien-Phat Nguyen, Truong Nguyen, Minh-Phuc Truong, Tuc Nguyen, James Bailey, Trung Le,
- Abstract要約: ムオンの最大安定ステップサイズは、最大ではなく、勾配の平均特異値でスケールすることを示す。
我々はMuonを事前条件付き勾配法として再評価し、Kronecker-factored curvatureモデルの下で有効収束係数を改善することを示す。
- 参考スコア(独自算出の注目度): 15.754779716816174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon orthogonalizes the momentum buffer before each update, replacing its singular values with ones via Newton-Schulz iterations. This simple change lets Muon tolerate far larger learning rates and converge faster than other optimizers, but why? We show that the mechanism is spectral flattening, and develop two results around it. First, we prove that Muon's maximal stable step size scales with the average singular value of the gradient rather than the largest, which bottlenecks standard gradient descent. Second, we recast Muon as a preconditioned gradient method and show, under a Kronecker-factored curvature model, that it improves the effective convergence factor, with the improvement controlled by the spectrum of the gradient covariance. Extensive experiments validate both results: Muon remains stable at learning rates that cause SGD to diverge within the first few iterations, and reaches accuracy milestones several epochs earlier even at identical step sizes. Taken together, our results offer a principled, geometric explanation for Muon's empirical success.
- Abstract(参考訳): ミューオンは各更新の前に運動量バッファを直交し、ニュートン・シュルツの反復による特異値に置き換える。
このシンプルな変更により、Muonは他のオプティマイザよりもはるかに大きな学習率と高速な収束を許容できるが、なぜだろうか?
このメカニズムはスペクトル平坦化であり,その周辺で2つの結果が得られた。
まず、Muonの最大安定ステップサイズは、標準勾配降下をボトルネックとする最大よりも、勾配の平均特異値でスケールすることが証明される。
第二に、Muonを事前条件付き勾配法として再評価し、Kronecker-factored curvatureモデルの下で、勾配共分散のスペクトルによって制御された改善により、効果的な収束係数を改善することを示す。
Muonは、最初の数回のイテレーションでSGDが分岐する学習速度で安定し、同じステップサイズであっても、より早く精度の高いマイルストーンに達する。
まとめると、この結果はムオンの実証的な成功を原則的に幾何学的に説明できる。
関連論文リスト
- Muon is Not That Special: Random or Inverted Spectra Work Just as Well [50.969177887027115]
正確な幾何構造が性能に影響を及ぼす重要な要因ではないことを実証する。
ここでは、Schatten (quasi-size)normsに基づく幾何学のファミリであるFreonを紹介する。
また、特異値をランダムノイズで置き換える不条理なKaonを導入する。
論文 参考訳(メタデータ) (2026-05-11T19:42:48Z) - Muown: Row-Norm Control for Muon Optimization [41.541871767555484]
Muonは、言語モデルの事前トレーニングにおいてAdamWと強く競合する。
Muownは、Muon、SOAP、AdamW、Lionの複雑さを改善します。
論文 参考訳(メタデータ) (2026-05-11T16:26:06Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory [77.27772368491698]
Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2026-03-27T16:13:18Z) - Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Delving into Muon and Beyond: Deep Analysis and Extensions [8.297062899157664]
We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
論文 参考訳(メタデータ) (2026-02-04T15:40:47Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Convergence of Batch Stochastic Gradient Descent Methods with
Approximate Gradients and/or Noisy Measurements: Theory and Computational
Results [0.9900482274337404]
BSGD(Block Gradient Descent)と呼ばれる非常に一般的な定式化を用いた凸最適化の研究
我々は近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。
近似勾配を用いると、BSGDは収束し、運動量に基づく手法は分岐できることを示す。
論文 参考訳(メタデータ) (2022-09-12T16:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。