論文の概要: Preconditioning Benefits of Spectral Orthogonalization in Muon
- arxiv url: http://arxiv.org/abs/2601.13474v1
- Date: Tue, 20 Jan 2026 00:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.103987
- Title: Preconditioning Benefits of Spectral Orthogonalization in Muon
- Title(参考訳): ムーンにおけるスペクトル直交化の事前条件付け効果
- Authors: Jianhao Ma, Yu Huang, Yuejie Chi, Yuxin Chen,
- Abstract要約: 線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 50.62925024212989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Muon optimizer, a matrix-structured algorithm that leverages spectral orthogonalization of gradients, is a milestone in the pretraining of large language models. However, the underlying mechanisms of Muon -- particularly the role of gradient orthogonalization -- remain poorly understood, with very few works providing end-to-end analyses that rigorously explain its advantages in concrete applications. We take a step by studying the effectiveness of a simplified variant of Muon through two case studies: matrix factorization, and in-context learning of linear transformers. For both problems, we prove that simplified Muon converges linearly with iteration complexities independent of the relevant condition number, provably outperforming gradient descent and Adam. Our analysis reveals that the Muon dynamics decouple into a collection of independent scalar sequences in the spectral domain, each exhibiting similar convergence behavior. Our theory formalizes the preconditioning effect induced by spectral orthogonalization, offering insight into Muon's effectiveness in these matrix optimization problems and potentially beyond.
- Abstract(参考訳): 勾配のスペクトル直交化を利用する行列構造アルゴリズムであるミューオンオプティマイザは、大規模言語モデルの事前学習におけるマイルストーンである。
しかし、ムオンの基盤となるメカニズム、特に勾配直交化の役割は理解されていないままであり、具体的な応用においてその利点を厳密に説明するエンドツーエンドの分析を提供する研究はほとんどない。
本稿では,行列分解と線形変圧器の文脈内学習という2つのケーススタディを通じて,ミュオンの簡易版の有効性について検討する。
どちらの問題に対しても、単純化されたミューオンは関連する条件数とは無関係に反復複素数と線形収束し、明らかに勾配降下とアダムよりも優れることを示す。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことがわかった。
我々の理論は、スペクトル直交化によって引き起こされるプレコンディショニング効果を定式化し、これらの行列最適化問題および潜在的にそれ以上におけるムオンの有効性についての洞察を提供する。
関連論文リスト
- On the Convergence of Muon and Beyond [31.900178928104648]
分散の低減により、Muon-MVR2 が最適な複雑性を達成できるという最初の証明を提供する。
全体として、この研究はムオン形式の最適性の最初の証明を提供する。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z) - Absorb and Converge: Provable Convergence Guarantee for Absorbing Discrete Diffusion Models [66.0716790920952]
吸収率行列を用いた離散拡散モデルに対する第1次有限時間誤差境界と収束速度解析を提供する。
我々は、吸収率行列の下での$tau$-leapingと均一化サンプリングの双方に対する最初の収束保証を確立する。
適切な仮定の下では、早期に停止することなく収束保証を提供する。
論文 参考訳(メタデータ) (2025-06-02T23:14:35Z) - On the Convergence Analysis of Muon [19.29806555936508]
我々は、Muonの総合収束速度解析と、Gradient Descent(GD)との比較を示す。
我々の理論的結果は、ムオンがヘッセン行列の低ランクおよび近似ブロックワイド対角構造から恩恵を受けることができることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:01Z) - Revisiting Gaussian genuine entanglement witnesses with modern software [0.0]
連続変数ガウスの絡み合いは量子情報理論において魅力的な概念である。
測定された非物理的行列から最も可能性の高い物理的共分散行列を再構成するいくつかの方法を提案する。
正定値行列のシンプレクティックトレースに対する明示的な解析式を導出し, 絡み合う証人の単純な証人として機能する。
論文 参考訳(メタデータ) (2024-12-12T23:33:52Z) - Spectral Phase Transition and Optimal PCA in Block-Structured Spiked
models [20.742571160909456]
種々の学習シナリオにおける構造化雑音の研究のために最近導入された理論フレームワークである不均質スパイクド・ウィグナーモデルについて論じる。
我々の主な目的は、最適スペクトル法を探し出し、不均質でブロック構造を持つウィグナーモデルに有望な citeBBP (BBP) 相転移基準を拡張することである。
論文 参考訳(メタデータ) (2024-03-06T13:23:55Z) - Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。
我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文 参考訳(メタデータ) (2021-03-02T06:59:52Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。