論文の概要: Delving into Muon and Beyond: Deep Analysis and Extensions
- arxiv url: http://arxiv.org/abs/2602.04669v1
- Date: Wed, 04 Feb 2026 15:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.596081
- Title: Delving into Muon and Beyond: Deep Analysis and Extensions
- Title(参考訳): MuonとBeyondに夢中になる - 深い分析と拡張
- Authors: Xianbiao Qi, Marco Chen, Jiaquan Ye, Yelin He, Rong Xiao,
- Abstract要約: We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
- 参考スコア(独自算出の注目度): 8.297062899157664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer has recently attracted considerable attention for its strong empirical performance and use of orthogonalized updates on matrix-shaped parameters, yet its underlying mechanisms and relationship to adaptive optimizers such as Adam remain insufficiently understood. In this work, we aim to address these questions through a unified spectral perspective. Specifically, we view Muon as the p = 0 endpoint of a family of spectral transformations of the form U \boldsymbolΣ^{p} V' , and consider additional variants with p = 1/2 , p = 1/4 , and p = 1 . These transformations are applied to both first-moment updates, as in momentum SGD, and to root-mean-square (RMS) normalized gradient updates as in Adam. To enable efficient computation, we develop a coupled Newton iteration that avoids explicit singular value decomposition. Across controlled experiments, we find that RMS-normalized updates yield more stable optimization than first-moment updates. Moreover, while spectral compression provides strong stabilization benefits under first-moment updates, the Muon update (p = 0) does not consistently outperform Adam. These results suggest that Muon is best understood as an effective form of spectral normalization, but not a universally superior optimization method. Our source code will be released at https://github.com/Ocram7/BeyondMuon.
- Abstract(参考訳): Muonオプティマイザは、その強力な経験的性能と行列型パラメータの直交化更新の使用により、最近かなりの注目を集めているが、その基盤となるメカニズムとAdamのような適応オプティマイザとの関係は、まだ十分に理解されていない。
本研究は,これらの課題を統一スペクトル視点で解決することを目的としている。
具体的には、Muon を U \boldsymbolΣ^{p} V' という形のスペクトル変換の族 p = 0 の終点と見なし、さらに p = 1/2 , p = 1/4 , p = 1 の変種を考える。
これらの変換は、運動量SGDのような最初のモーメント更新と、Adamのようなルート平均二乗(RMS)正規化勾配更新の両方に適用される。
効率的な計算を実現するために,明示的な特異値分解を回避する結合ニュートン反復法を開発した。
制御された実験全体を通して、RMS正規化更新は、第一モーメント更新よりも安定した最適化をもたらすことが判明した。
さらに、スペクトル圧縮は最初のモーメント更新で強い安定化効果をもたらすが、Muon更新(p = 0)はAdamを一貫して上回るものではない。
これらの結果は、ムオンはスペクトル正規化の有効な形式として理解されているが、普遍的に優れた最適化法ではないことを示唆している。
ソースコードはhttps://github.com/Ocram7/BeyondMuon.comで公開されます。
関連論文リスト
- Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - AuON: A Linear-time Alternative to Semi-Orthogonal Momentum Updates [0.0]
運動量に基づく更新の半直交特性について検討し、スペクトルノルム信頼領域下での運動量更新を束縛する方法を開発した。
半直交行列を構成することなく強い性能を達成する線形時間であるAuON(正規化非線形スケーリングによる代替単位ノルム運動量更新)を提案する。
提案手法は, 双極子-コサインRMSスケーリング変換と正規化を組み合わせることで, ニュートン-シュルツ法と比較して, 有効性と計算効率の両立を実証する。
論文 参考訳(メタデータ) (2025-09-29T06:03:53Z) - Conda: Column-Normalized Adam for Training Large Language Models Faster [70.66067959375748]
Column-Normalized Adam (Conda)は、大規模言語モデル(LLM)に対する新しいアプローチである。
Condaはサブスペースに更新を投影し、投影された勾配に基づいてカラムワイズ第2モーメント正規化を適用する。
LLaMAとGPT-2シリーズの実験では、コンダはトレーニング前のAdamW、Muon、その他のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-29T02:58:19Z) - AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates [5.049533819651459]
我々は、標準ベースの更新とaGradタイプのステップを組み合わせた新しい適応型更新AdaGOを提案する。
AdaGOは更新の直交性を保持しており、これはスペクトル降下と解釈できる。
論文 参考訳(メタデータ) (2025-09-03T03:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。