論文の概要: Dimension-Free Saddle-Point Escape in Muon
- arxiv url: http://arxiv.org/abs/2605.09331v1
- Date: Sun, 10 May 2026 05:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.196101
- Title: Dimension-Free Saddle-Point Escape in Muon
- Title(参考訳): ムーンにおける次元自由なサドルポイントエスケープ
- Authors: Yanlin Long, Yufei Gu, Zeke Xie,
- Abstract要約: 現代大規模言語モデル(LLM)のトレーニングは、非常に高次元の風景において、病理学的に平坦なサドルポイントによってボトルネックとなる。
この課題に動機づけられた我々は、新興ムオンのサドルポイントエスケープダイナミクスを解析した。
- 参考スコア(独自算出の注目度): 10.480246288279517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Language Model (LLM) training is fundamentally bottlenecked by pathologically flat saddle points in extreme high-dimensional landscapes. Motivated by this challenge, we analyze the saddle-point escape dynamics of the emerging Muon optimizer, demonstrating its resilience against the $\mathcal{O}(D)$ dimensional curse that severely traps element-wise adaptive optimizers like AdamW. By extending generalized matrix perturbation theory, we develop a theoretical framework to capture Muon's non-equilibrium optimization trajectories. This theoretical machinery mathematically proves that Muon elegantly bypasses the dimensional curse via a non-linear spectral shaping mechanism. By leveraging resolvent functional calculus and macroscopic Cauchy contour integration, we avoid isotropic noise assumptions and Tracy-Widom edge singularities. We establish that structural incoherence securely shields the trajectory from orthogonal drift, enabling a dimension-free saddle-point escape, and triggering a deterministic $\mathcal{O}(1)$ discrete ballistic ejection under sufficient spectral gap. Consequently, we provide an algebraically dimension-free escape bound for Muon, formalizing the underlying mechanics of its non-convex optimization dynamics.
- Abstract(参考訳): 現代大規模言語モデル(LLM)のトレーニングは、極端な高次元の風景において、病理学的に平坦なサドルポイントによって根本的にボトルネック化されている。
この課題に触発された我々は、出現するMuonオプティマイザのサドルポイントエスケープダイナミクスを分析し、AdamWのような要素ワイド適応オプティマイザを厳しくトラップする$\mathcal{O}(D)$次元の呪いに対して、そのレジリエンスを示す。
一般化行列摂動理論を拡張して、ムオンの非平衡最適化軌道を捉える理論的枠組みを開発する。
この理論機械は、ムオンが非線型スペクトル整形機構によって次元の呪いをエレガントに回避していることを数学的に証明している。
分解関数計算とマクロコーシー輪郭積分を利用することにより、等方的雑音仮定やトレイシー・ウィドムエッジ特異点を避けることができる。
構造的不整合は、直交ドリフトから軌道を確実に遮蔽し、次元自由なサドルポイントエスケープを可能にし、十分なスペクトルギャップの下で決定論的$\mathcal{O}(1)$離散弾道射を誘導する。
したがって、非凸最適化力学の基盤となる力学を定式化して、代数的に次元のないムオンの脱出境界を与える。
関連論文リスト
- Graph Symmetry Organizes Exceptional Dynamics in Open Quantum Systems [0.0]
完備Liouvillian 生成器から直接例外点を同定し特徴付けるための対称性分解アプローチを導入する。
さらに固有ベクトル条件に基づく数値診断(例外点強度$mathcalE$)を導入する。
より広範に、このフレームワークは複雑または高次元のオープンシステムにおいて隠された例外構造を体系的に発見することができる。
論文 参考訳(メタデータ) (2026-03-11T11:14:07Z) - Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Data-Free PINNs for Compressible Flows: Mitigating Spectral Bias and Gradient Pathologies via Mach-Guided Scaling and Hybrid Convolutions [0.0]
本稿では,圧縮不能なインビシッドフローを解くことができる完全データフリーな物理情報ニューラルネットワーク(PINN)を提案する。
提案するフレームワークは,参照データなしで離弓衝撃を捕捉する。
論文 参考訳(メタデータ) (2026-03-01T09:04:18Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Diagonalizing the Softmax: Hadamard Initialization for Tractable Cross-Entropy Dynamics [29.85277126753054]
クロスエントロピー(CE)損失はディープラーニングを支配しているが、既存の理論はしばしば単純化に依存している。
標準的なニューラルネットワークベクトルを持つ標準ネットワークの詳細な特徴付けを行う。
論文 参考訳(メタデータ) (2025-12-03T17:45:09Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - On interpretability and proper latent decomposition of autoencoders [6.85316573653194]
本稿では,オートエンコーダの変換を理論的に解釈する。
我々は、多様体の数学的記述を提供する計量テンソルを数学的に導出する。
本稿では, 自己エンコーダ潜時空間上の乱流の適切な分解を一般化する手法として, 適切な潜時分解法(PLD)を提案する。
論文 参考訳(メタデータ) (2022-11-15T17:55:35Z) - Shape And Structure Preserving Differential Privacy [70.08490462870144]
正方形距離関数の勾配がラプラス機構よりも感度をよりよく制御できることを示す。
また,2乗距離関数の勾配を用いることで,ラプラス機構よりも感度を制御できることを示す。
論文 参考訳(メタデータ) (2022-09-21T18:14:38Z) - Lifting the Convex Conjugate in Lagrangian Relaxations: A Tractable
Approach for Continuous Markov Random Fields [53.31927549039624]
断片的な離散化は既存の離散化問題と矛盾しないことを示す。
この理論を2つの画像のマッチング問題に適用する。
論文 参考訳(メタデータ) (2021-07-13T12:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。