論文の概要: Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning
- arxiv url: http://arxiv.org/abs/2603.09697v1
- Date: Tue, 10 Mar 2026 14:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.361504
- Title: Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning
- Title(参考訳): Mousse: 曲率を考慮したプリコンディショニングによるミューオンの幾何学の定式化
- Authors: Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen,
- Abstract要約: スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
- 参考スコア(独自算出の注目度): 72.62839712454196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in spectral optimization, notably Muon, have demonstrated that constraining update steps to the Stiefel manifold can significantly accelerate training and improve generalization. However, Muon implicitly assumes an isotropic optimization landscape, enforcing a uniform spectral update norm across all eigen-directions. We argue that this "egalitarian" constraint is suboptimal for Deep Neural Networks, where the curvature spectrum is known to be highly heavy-tailed and ill-conditioned. In such landscapes, Muon risks amplifying instabilities in high-curvature directions while limiting necessary progress in flat directions. In this work, we propose \textbf{Mousse} (\textbf{M}uon \textbf{O}ptimization \textbf{U}tilizing \textbf{S}hampoo's \textbf{S}tructural \textbf{E}stimation), a novel optimizer that reconciles the structural stability of spectral methods with the geometric adaptivity of second-order preconditioning. Instead of applying Newton-Schulz orthogonalization directly to the momentum matrix, Mousse operates in a whitened coordinate system induced by Kronecker-factored statistics (derived from Shampoo). Mathematically, we formulate Mousse as the solution to a spectral steepest descent problem constrained by an anisotropic trust region, where the optimal update is derived via the polar decomposition of the whitened gradient. Empirical results across language models ranging from 160M to 800M parameters demonstrate that Mousse consistently outperforms Muon, achieving around $\sim$12\% reduction in training steps with negligible computational overhead.
- Abstract(参考訳): スペクトル最適化の最近の進歩、特にムオンは、スティーフェル多様体への更新ステップの制限がトレーニングを著しく加速し、一般化を改善することを実証している。
しかし、ムーンは暗黙的に等方的最適化の展望を仮定し、全ての固有方向に対して均一なスペクトル更新ノルムを課す。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
このような状況下では、ムオンは平坦な方向の必要な進行を抑えつつ、高い曲率方向の不安定性を増幅する危険性がある。
本研究では,スペクトル法の構造的安定性を二階前処理の幾何的適応性と整合させる新しい最適化手法である \textbf{M}uon \textbf{O}ptimization \textbf{U}tilizing \textbf{S}hampoo's \textbf{S}tructural \textbf{E}stimation を提案する。
ニュートン=シュルツ直交化を運動量行列に直接適用する代わりに、モーセはクロネッカー分解統計学(シャンプーから派生した)によって誘導される白色座標系で機能する。
数学的には, 最適更新は白色勾配の極分解によって導かれる, 異方性信頼領域によって制約される最も急勾配降下問題の解としてMousseを定式化する。
1億6000万から8億のパラメータを含む言語モデルにわたる実証的な結果から、Mousseはムーンを一貫して上回り、無視できる計算オーバーヘッドを伴うトレーニングステップを約$\sim$12\%削減した。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Muon with Spectral Guidance: Efficient Optimization for Scientific Machine Learning [10.647088281181222]
SpecMuonは、物理インフォームドラーニングのためのスペクトル対応多モード勾配流である。
これは、ムオンのスケールバランス特性を保ちながら、グローバルな損失エネルギーに応じてステップサイズを規制する。
アダム・アダムWよりも早く収束し、安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-18T03:56:20Z) - Majorization-Minimization Networks for Inverse Problems: An Application to EEG Imaging [4.063392865490957]
逆問題はしばしば誤りを犯し、強い安定性と収束を保証する最適化スキームを必要とする。
本稿では,二段階最適化設定における逆問題に対する学習されたMajorization-Minimization(MM)フレームワークを提案する。
我々は,古典的MM降下保証を保ちながら,各MMステップを管理する構造化曲率行列を学習する。
論文 参考訳(メタデータ) (2026-01-23T10:33:45Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - A Riemannian Optimization Perspective of the Gauss-Newton Method for Feedforward Neural Networks [3.48097307252416]
我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
適切な減衰スケジュールが選択されたレバンス・マルカルト力学は、潜在的に条件の悪いニューラル・タンジェント・カーネル行列にも拘わらず、高速収束率が得られることを示す。
論文 参考訳(メタデータ) (2024-12-18T16:51:47Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。