論文の概要: LiMuon: Light and Fast Muon Optimizer for Large Models
- arxiv url: http://arxiv.org/abs/2509.14562v1
- Date: Thu, 18 Sep 2025 02:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.036029
- Title: LiMuon: Light and Fast Muon Optimizer for Large Models
- Title(参考訳): LiMuon: 大規模モデルのための軽量かつ高速なミューオン最適化
- Authors: Feihu Huang, Yuning Luo, Songcan Chen,
- Abstract要約: 大規模モデルのトレーニングに有用なMuonを提案する。
私たちのLiMuonは、現在のMuonとその変種よりもメモリが低い。
一般化された滑らかな条件下でLiMuonがサンプルO(epsilon-3)$であることを証明する。
- 参考スコア(独自算出の注目度): 45.11415579822849
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large models recently are widely applied in artificial intelligence, so efficient training of large models has received widespread attention. More recently, a useful Muon optimizer is specifically designed for matrix-structured parameters of large models. Although some works have begun to studying Muon optimizer, the existing Muon and its variants still suffer from high sample complexity or high memory for large models. To fill this gap, we propose a light and fast Muon (LiMuon) optimizer for training large models, which builds on the momentum-based variance reduced technique and randomized Singular Value Decomposition (SVD). Our LiMuon optimizer has a lower memory than the current Muon and its variants. Moreover, we prove that our LiMuon has a lower sample complexity of $O(\epsilon^{-3})$ for finding an $\epsilon$-stationary solution of non-convex stochastic optimization under the smooth condition. Recently, the existing convergence analysis of Muon optimizer mainly relies on the strict Lipschitz smooth assumption, while some artificial intelligence tasks such as training large language models (LLMs) do not satisfy this condition. We also proved that our LiMuon optimizer has a sample complexity of $O(\epsilon^{-3})$ under the generalized smooth condition. Numerical experimental results on training DistilGPT2 and ViT models verify efficiency of our LiMuon optimizer.
- Abstract(参考訳): 近年、大規模モデルは人工知能に広く応用されているため、大規模モデルの効率的な訓練は広く注目を集めている。
最近では、有用なMuonオプティマイザが、大規模モデルの行列構造パラメータ用に特別に設計されている。
Muonオプティマイザの研究はいくつかの研究が始まっているが、既存の Muon とその変種はいまだに大規模なモデルで高いサンプル複雑性や高いメモリに悩まされている。
このギャップを埋めるために,運動量に基づく分散低減技術とランダム化特異値分解(SVD)に基づく,大規模モデルのトレーニングのための軽量かつ高速なMuon(LiMuon)オプティマイザを提案する。
我々のLiMuonオプティマイザは、現在のMuonとその変種よりもメモリが低い。
さらに、我々のLiMuonは、滑らかな条件下での非凸確率最適化の$O(\epsilon^{-3})$-定常解を求めるために、より低いサンプル複雑性を持つことを証明している。
近年,Muonオプティマイザの既存の収束解析は主に厳密なリプシッツの滑らかな仮定に依存しているが,大規模言語モデル(LLM)の訓練などの人工知能タスクはこの条件を満たしていない。
また、LiMuonオプティマイザは一般化された滑らかな条件下では$O(\epsilon^{-3})$のサンプル複雑性を持つことを示した。
DistilGPT2 と ViT モデルの訓練実験により,LiMuon オプティマイザの有効性が検証された。
関連論文リスト
- AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [38.99428012275441]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Mnemosyne: Learning to Train Transformers with Transformers [18.36543176998175]
Mnemosyneは最小限の計算資源を必要とする単純なメタトレーニング戦略を用いてトランスフォーマーのトレーニングを成功させることができることを示す。
Mnemosyneは、手作業で設計された一階述語に匹敵する複雑さを提供する。
論文 参考訳(メタデータ) (2023-02-02T14:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。