論文の概要: Muon is Not That Special: Random or Inverted Spectra Work Just as Well
- arxiv url: http://arxiv.org/abs/2605.11181v1
- Date: Mon, 11 May 2026 19:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.391799
- Title: Muon is Not That Special: Random or Inverted Spectra Work Just as Well
- Title(参考訳): Muonは特別ではない: ランダムか逆スペクトルは同じように機能する
- Authors: Zakhar Shumaylov, Nathaël Da Costa, Peter Zaika, Bálint Mucsányi, Alex Massucco, Yoav Gelberg, Carola-Bibiane Schönlieb, Yarin Gal, Philipp Hennig,
- Abstract要約: 正確な幾何構造が性能に影響を及ぼす重要な要因ではないことを実証する。
ここでは、Schatten (quasi-size)normsに基づく幾何学のファミリであるFreonを紹介する。
また、特異値をランダムノイズで置き換える不条理なKaonを導入する。
- 参考スコア(独自算出の注目度): 50.969177887027115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent empirical success of the Muon optimizer has renewed interest in non-Euclidean optimization, typically justified by similarities with second-order methods, and linear minimization oracle (LMO) theory. In this paper, we challenge this geometric narrative through three contributions, demonstrating that precise geometric structure is not the key factor affecting optimization performance. First, we introduce Freon, a family of optimizers based on Schatten (quasi-)norms, powered by a novel, provably optimal QDWH-based iterative approximation. Freon naturally interpolates between SGD and Muon, while smoothly extrapolating into the quasi-norm regime. Empirically, the best-performing Schatten parameters for GPT-2 lie strictly within the quasi-norm regime, and thus cannot be represented by any unitarily invariant LMO. Second, noting that Freon performs well across a wide range of exponents, we introduce Kaon, an absurd optimizer that replaces singular values with random noise. Despite lacking any coherent geometric structure, Kaon matches Muon's performance and retains classical convergence guarantees, proving that strict adherence to a precise geometry is practically irrelevant. Third, having shown that geometry is not the primary driver of performance, we demonstrate it is instead controlled by two local quantities: alignment and descent potential. Ultimately, each optimizer must tune its step size around these two quantities. While their dynamics are difficult to predict a-priori, evaluating them within a stochastic random feature model yields a precise insight: Muon succeeds not by tracking an ideal global geometry, but by guaranteeing step-size optimality.
- Abstract(参考訳): ミュオン最適化の最近の経験的成功により、非ユークリッド最適化への関心が再燃し、典型的には二階法と類似性や線形最小化オラクル(LMO)理論によって正当化された。
本稿では,3つのコントリビューションを通じて,この幾何学的物語に挑戦し,正確な幾何学的構造が最適化性能に影響を及ぼす重要な要因ではないことを示す。
まず、Schatten(quasi-)normsに基づく最適化アルゴリズムのファミリーであるFreonを紹介する。
フロンは自然にSGDとムオンの間を補間し、準ノルム状態に滑らかに外挿する。
経験的に、GPT-2 の最も優れたシャッテンパラメータは準ノルム状態内にあるため、単位不変な LMO で表すことはできない。
第二に、Freonが幅広い指数でうまく機能していることに留意し、特異値をランダムノイズで置き換える不条理な最適化器であるKaonを導入する。
コヒーレントな幾何学構造が欠如しているにもかかわらず、カオンはムオンのパフォーマンスと一致し、古典的な収束保証を維持しており、正確な幾何学への厳密な固執は事実上無関係であることを証明している。
第三に、幾何が性能の第一の要因ではないことを証明し、その代わりに2つの局所的な量、すなわちアライメントと降下ポテンシャルによって制御されることを示した。
最終的に、各オプティマイザは、これらの2つの量の周りにステップサイズを調整しなければなりません。
それらの力学はa-プリオリを予測するのが難しいが、確率的ランダムな特徴モデル内でそれらを評価すると、正確な洞察が得られる: ムーンは理想的な大域幾何学を追跡するのではなく、ステップサイズの最適性を保証することによって成功する。
関連論文リスト
- Phases of Muon: When Muon Eclipses SignSGD [15.75466352147896]
ミューオンと関連するスペクトルは、スケーラブルな方法として強い経験的性能を示し、しばしばアダムを上回っている。
我々は,Muonを含むスペクトルを高次元行列値最小二乗問題で解析する。
我々は,Muonが近似した(確率的な)SignSVDと,Adamのプロキシとして機能する(確率的な)SignSGDに着目し,学習行動を研究するための抽出可能なフレームワークを提供する明示的な決定論的ダイナミクスを導出する。
論文 参考訳(メタデータ) (2026-05-10T14:11:22Z) - Nora: Normalized Orthogonal Row Alignment for Scalable Matrix Optimizer [52.9566744833465]
大規模言語モデル(LLM)を学習するためのマトリックスベースのアプローチは、大きな可能性を実証している。
効率性、最適化を加速するためにミューオンのようなプレコンディショニングを達成すること、安定性、ニューラルネットワークの本質に厳密に固執すること、計算オーバーヘッドを最小化すること、の3つのコアデシダータを満たす必要がある。
我々は,3つの要件をすべて厳格に満たし,大規模トレーニングに非常に有望なNoraを提案する。
論文 参考訳(メタデータ) (2026-05-05T14:00:27Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - Delving into Muon and Beyond: Deep Analysis and Extensions [8.297062899157664]
We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
論文 参考訳(メタデータ) (2026-02-04T15:40:47Z) - Preconditioned Norms: A Unified Framework for Steepest Descent, Quasi-Newton and Adaptive Methods [50.070182958880146]
本稿では,事前条件付き行列ノルムの新たな概念を通じて,降下法,準ニュートン法,適応法を一般化する統一的枠組みを提案する。
この枠組みでは、行列パラメータ化設定におけるアフィンとスケール不変性の最初の体系的処理を提供する。
我々は、Muonのスペクトル幾何学とAdamスタイルのプレコンディショニングを組み合わせた、$ttMuAdam$と$texttMuAdam-SANIA$という2つの新しい方法を紹介した。
論文 参考訳(メタデータ) (2025-10-12T19:39:41Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - On the Convergence of Muon and Beyond [31.900178928104648]
分散の低減により、Muon-MVR2 が最適な複雑性を達成できるという最初の証明を提供する。
全体として、この研究はムオン形式の最適性の最初の証明を提供する。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。