論文の概要: MiMuon: Mixed Muon Optimizer with Improved Generalization for Large Models
- arxiv url: http://arxiv.org/abs/2605.19619v1
- Date: Tue, 19 May 2026 09:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.265725
- Title: MiMuon: Mixed Muon Optimizer with Improved Generalization for Large Models
- Title(参考訳): MiMuon: 大規模モデルの一般化を向上した混合ミューオン最適化
- Authors: Feihu Huang, Yuning Luo, Songcan Chen,
- Abstract要約: アルゴリズムの安定性と数学的帰納率に基づくMuonの一般化誤差について検討する。
そこで我々は,Muonと運動量に基づくSGDのハイブリッドである勾配を用いて,有効混合Muon(MiMuon)を提案する。
我々のMiMuonアルゴリズムは、Muonアルゴリズムと同じコンバージェンスレートが$O(frac1NTbig)$である。
- 参考スコア(独自算出の注目度): 45.11415579822849
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Matrix-structured parameters frequently appear in many artificial intelligence models such as large language models. More recently, an efficient Muon optimizer is designed for matrix parameters of large-scale models, and shows markedly faster convergence than the vector-wise algorithms. Although some works have begun to study convergence properties (i.e., optimization error) of the Muon optimizer, its generalization properties (i.e., generalization error) is still not established. Thus, in this paper, we study generalization error of the Muon optimizer based on algorithmic stability and mathematical induction, and prove that the Muon has a generalization error of $O\big(\frac{1}{Nκ^{T}}\big)$, where $N$ is training sample size, and $T$ denotes iteration number, and $κ>0$ denotes minimum difference between singular values of gradient estimate. To enhance generalization of the Muon, we propose an effective mixed Muon (MiMuon) optimizer by cautiously using orthogonalization of gradient, which is a hybrid of Muon and momentum-based SGD optimizers. Then we prove that our MiMuon optimizer has a lower generalization error of $O\big(\frac{1}{N}\big)$ than $O\big(\frac{1}{Nκ^{T}}\big)$ of Muon optimizer, since $κ$ generally is very small. Meanwhile, we also studied the convergence properties of our MiMuon algorithm, and prove that our MiMuon algorithm has the same convergence rate of $O(\frac{1}{T^{1/4}})$ as the Muon algorithm. Some numerical experimental results on training large models including Qwen3-0.6B and YOLO26m demonstrate efficiency of the MiMuon optimizer.
- Abstract(参考訳): 行列構造パラメータは、大きな言語モデルのような多くの人工知能モデルにしばしば現れる。
より最近では、大規模モデルの行列パラメータを最適化する効率的なMuonオプティマイザが設計されており、ベクトルワイズアルゴリズムよりもはるかに高速な収束を示している。
いくつかの研究は、ムオン最適化器の収束特性(すなわち最適化誤差)の研究を始めているが、その一般化特性(すなわち一般化誤差)はまだ確立されていない。
そこで本研究では,アルゴリズム安定性と数学的帰納率に基づいて,Muonオプティマイザの一般化誤差について検討し,$O\big(\frac{1}{Nκ^{T}}\big)$,$N$はトレーニングサンプルサイズであり,$T$は反復数であり,$κ>0$は勾配推定の特異値の最小差を表す。
ムオンの一般化を促進するために,ムオンと運動量に基づくSGD最適化器のハイブリッドである勾配の直交化を慎重に用いて,有効混合ムオン(MiMuon)最適化器を提案する。
次に、我々のMiMuon Optimizationrが$O\big(\frac{1}{N}\big)$よりも低い一般化誤差を持つことを示す。
一方、我々のMiMuonアルゴリズムの収束特性についても検討し、我々のMiMuonアルゴリズムがMuonアルゴリズムと同じ収束率$O(\frac{1}{T^{1/4}})$であることを証明する。
Qwen3-0.6B や YOLO26m などの大規模モデルのトレーニング実験では、MiMuonオプティマイザの効率が示されている。
関連論文リスト
- Muon is Not That Special: Random or Inverted Spectra Work Just as Well [50.969177887027115]
正確な幾何構造が性能に影響を及ぼす重要な要因ではないことを実証する。
ここでは、Schatten (quasi-size)normsに基づく幾何学のファミリであるFreonを紹介する。
また、特異値をランダムノイズで置き換える不条理なKaonを導入する。
論文 参考訳(メタデータ) (2026-05-11T19:42:48Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - LiMuon: Light and Fast Muon Optimizer for Large Models [45.11415579822849]
大規模モデルのトレーニングに有用なMuonを提案する。
私たちのLiMuonは、現在のMuonとその変種よりもメモリが低い。
一般化された滑らかな条件下でLiMuonがサンプルO(epsilon-3)$であることを証明する。
論文 参考訳(メタデータ) (2025-09-18T02:49:27Z) - Muon Optimizes Under Spectral Norm Constraints [12.29696026957078]
重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
論文 参考訳(メタデータ) (2025-06-18T01:32:39Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。