論文の概要: On the Convergence of Muon and Beyond
- arxiv url: http://arxiv.org/abs/2509.15816v2
- Date: Mon, 22 Sep 2025 06:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 12:27:33.512244
- Title: On the Convergence of Muon and Beyond
- Title(参考訳): ミューオンの収束と超越について
- Authors: Da Chang, Yongxiang Liu, Ganzhao Yuan,
- Abstract要約: Muon はニューラルネットワークの行列構造パラメーターにおいて顕著な成功を収めた。
理論と実効率の違いの間には、大きな理解ギャップが持続する。
この研究は、ムオン形式の最適性の最初の証明を提供し、イット収束に関する我々の発見を裏付けるものである。
- 参考スコア(独自算出の注目度): 31.900178928104648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer has demonstrated remarkable empirical success in handling matrix-structured parameters for training neural networks. However, a significant gap persists between its practical performance and theoretical understanding. Existing analyses indicate that the standard Muon variant achieves only a suboptimal convergence rate of $\mathcal{O}(T^{-1/4})$ in stochastic non-convex settings, where $T$ denotes the number of iterations. To explore the theoretical limits of the Muon framework, we develop and analyze two momentum-based variance-reduced variants: a one-batch version (Muon-MVR1) and a two-batch version (Muon-MVR2). We provide the first rigorous proof that incorporating a variance-reduction mechanism enables Muon-MVR2 to attain an optimal convergence rate of $\tilde{\mathcal{O}}(T^{-1/3})$, thereby matching the theoretical lower bound for this class of problems. Moreover, our analysis establishes convergence guarantees for Muon variants under the Polyak-{\L}ojasiewicz (P{\L}) condition. Extensive experiments on vision (CIFAR-10) and language (C4) benchmarks corroborate our theoretical findings on per-iteration convergence. Overall, this work provides the first proof of optimality for a Muon-style optimizer and clarifies the path toward developing more practically efficient, accelerated variants.
- Abstract(参考訳): Muonオプティマイザは、ニューラルネットワークのトレーニングのために行列構造パラメータを扱うという、驚くほどの成功を収めた。
しかし、その実践的性能と理論的理解の間には大きなギャップが残っている。
既存の分析によれば、標準ミューオン変種は確率的非凸設定において$\mathcal{O}(T^{-1/4})$の最適収束率のみを達成する。
ムオンフレームワークの理論的限界を探求するため, モーメントに基づく2つの変量再現版(ムオン-MVR1) と, ワンバッチ版(ムオン-MVR2) を開発し, 解析する。
分散還元機構を組み込んだ最初の厳密な証明として、Muon-MVR2 は$\tilde{\mathcal{O}}(T^{-1/3})$ の最適収束率を得ることができ、このクラスの問題の理論的下界と一致する。
さらに、解析により、ポリアック-{\L}ojasiewicz (P{\L}) 条件下でのミューオン変種に対する収束保証が確立される。
視力 (CIFAR-10) と言語 (C4) ベンチマークの広範囲な実験は, 点当たり収束に関する理論的知見を裏付けるものである。
全体として、この研究はムーン型最適化器の最適性の最初の証明を提供し、より実用的に効率的で加速された変種を開発するための道筋を明らかにする。
関連論文リスト
- VFOG: Variance-Reduced Fast Optimistic Gradient Methods for a Class of Nonmonotone Generalized Equations [3.6997773420183866]
我々は,Nesterovの加速度と分散還元技術を組み合わせた,新しい楽観的勾配型アルゴリズムフレームワークを開発した。
この手法はリプシッツ連続性の下で残余の平方ノルムを期待して$mathcalO (1/k2)$収束率を達成することを示す。
提案手法の反復列は根本問題の解にほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-08-22T20:46:29Z) - Convergence Bound and Critical Batch Size of Muon Optimizer [1.2289361708127877]
4つの実践的な設定にまたがって、Muon の収束証明を提供する。
重み付け崩壊の付加は、より厳密な理論的境界をもたらすことを示す。
トレーニングの計算コストを最小限に抑えた,Muonのクリティカルバッチサイズを導出する。
論文 参考訳(メタデータ) (2025-07-02T11:03:13Z) - Muon Optimizes Under Spectral Norm Constraints [12.57291626702513]
重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
論文 参考訳(メタデータ) (2025-06-18T01:32:39Z) - On the Convergence Analysis of Muon [19.29806555936508]
我々は、Muonの総合収束速度解析と、Gradient Descent(GD)との比較を示す。
我々の理論的結果は、ムオンがヘッセン行列の低ランクおよび近似ブロックワイド対角構造から恩恵を受けることができることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:01Z) - A Novel Unified Parametric Assumption for Nonconvex Optimization [53.943470475510196]
非最適化は機械学習の中心であるが、一般の非凸性は弱い収束を保証するため、他方に比べて悲観的すぎる。
非凸アルゴリズムに新しい統一仮定を導入する。
論文 参考訳(メタデータ) (2025-02-17T21:25:31Z) - Flow matching achieves almost minimax optimal convergence [50.38891696297888]
フローマッチング (FM) は, シミュレーションのない生成モデルとして注目されている。
本稿では,大試料径のFMの収束特性を$p$-Wasserstein 距離で論じる。
我々は、FMが1leq p leq 2$でほぼ最小の収束率を達成できることを確立し、FMが拡散モデルに匹敵する収束率に達するという最初の理論的証拠を示す。
論文 参考訳(メタデータ) (2024-05-31T14:54:51Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。