論文の概要: Denoise First, Orthogonalize Later: Understanding Momentum in Muon via Spectral Filtering
- arxiv url: http://arxiv.org/abs/2606.03899v2
- Date: Wed, 03 Jun 2026 02:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 17:40:41.645277
- Title: Denoise First, Orthogonalize Later: Understanding Momentum in Muon via Spectral Filtering
- Title(参考訳): Denoise First, Orthogonalize Later: Spectral Filtering によるMuonのMomentum理解
- Authors: Xianliang Li, Zihan Zhang, Weiyang Liu, Han Bao,
- Abstract要約: ムオンの運動量はスペクトルフィルタとして作用することを示す。
摂動前の運動量を適用することは、この順序を逆転させるか、単に運動量を取り除くよりも、勾配の信号成分との配向を確実に強くする。
- 参考スコア(独自算出の注目度): 32.15111956211244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon has recently demonstrated strong empirical performance in large language model training, but the theoretical role of momentum in Muon remains unclear. Existing analyses of Muon either remove momentum to study spectral updates in isolation, or retain momentum without explaining why it improves empirical performance. Our work bridges this gap by showing momentum in Muon acts as a spectral filter. Under a structured signal-plus-perturbation gradient model, we prove that momentum suppresses perturbations while preserving the dominant signal, thereby enlarging the spectral gap between them. This enlarged gap stabilizes the singular subspaces of the matrix passed to Muon's orthogonalization step, making the resulting update more reliable. We further show that applying momentum before orthogonalization achieves provably stronger alignment with the signal component of the gradient than either reversing this order or simply removing momentum. Experiments across diverse tasks, including LLM pretraining, support our theoretical analysis. More broadly, our theory offers a starting point for understanding the benefits of momentum in other matrix-based optimizers.
- Abstract(参考訳): Muonは最近、大規模な言語モデルトレーニングにおいて強力な経験的性能を示したが、Muonにおける運動量の理論的役割は未だ不明である。
既存のムオンの分析では、スペクトル更新を研究するために運動量を取り除くか、なぜ経験的性能を改善するのかを説明することなく運動量を維持する。
我々の研究は、ムオンの運動量を示すことによってこのギャップを埋める。
構造的信号+摂動勾配モデルの下では、モーメントが支配的な信号を保持しながら摂動を抑制することを証明し、それらの間のスペクトルギャップを拡大する。
この拡大ギャップは、ムオンの直交化ステップに渡される行列の特異部分空間を安定化させ、その結果の更新をより信頼できるものにする。
さらに、直交化前の運動量を適用することで、この順序を逆転させるか、単に運動量を取り除くよりも、勾配の信号成分との整合性が確実に強いことを示す。
LLMプレトレーニングを含む多種多様なタスクに対する実験は、我々の理論的分析を支援する。
より広義に、我々の理論は、他の行列ベースの最適化器における運動量の利点を理解するための出発点を提供する。
関連論文リスト
- Move on Muon : A Hamiltonian probability gradient flow perspective of Muon optimizer [6.003944904428636]
正規化ミューオンにより誘導される行列値パラメータ上で定義される確率測度空間上の勾配流を開発する。
我々は、ハミルトンエネルギーが単調に減少することを示す、正確なハミルトン散逸の恒等性を証明した。
積行列空間上のヒルベルト値特徴写像に定式化を拡張し、ブロックワイズムーン確率フローを得る。
論文 参考訳(メタデータ) (2026-05-22T17:28:53Z) - Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence [15.754779716816174]
ムオンの最大安定ステップサイズは、最大ではなく、勾配の平均特異値でスケールすることを示す。
我々はMuonを事前条件付き勾配法として再評価し、Kronecker-factored curvatureモデルの下で有効収束係数を改善することを示す。
論文 参考訳(メタデータ) (2026-05-13T06:54:01Z) - Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory [77.27772368491698]
Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2026-03-27T16:13:18Z) - IDLM: Inverse-distilled Diffusion Language Models [70.5793829229702]
Inverse Distillation(逆蒸留)は、もともと連続拡散モデルを加速するために開発された技法で、離散的な設定に拡張する。
理論的観点からは、逆蒸留の目的には一意性保証が欠如しており、これは準最適解に繋がる可能性がある。
Inverse-distilled Diffusion Language Models (IDLM) は推論ステップ数を4x-64x削減する。
論文 参考訳(メタデータ) (2026-02-22T06:47:04Z) - Insights on Muon from Simple Quadratics [2.8348950186890467]
ミューオンは勾配の(近似的な)極性因子に沿って重量行列を更新する。
既存のパフォーマンス説明の試みは、主にシングルステップの比較に重点を置いている。
Muon を理解するには,局所的プロキシや悲観的な最悪のケース境界を越える必要がある。
論文 参考訳(メタデータ) (2026-02-12T13:43:58Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Losing momentum in continuous-time stochastic optimisation [42.617042045455506]
運動量に基づく最適化アルゴリズムは 特に広まりました
本研究では、運動量を伴う勾配降下の連続時間モデルを解析する。
また、画像分類問題において畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-08T10:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。