論文の概要: Error Feedback for Muon and Friends
- arxiv url: http://arxiv.org/abs/2510.00643v1
- Date: Wed, 01 Oct 2025 08:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.46252
- Title: Error Feedback for Muon and Friends
- Title(参考訳): Muon と Friends のエラーフィードバック
- Authors: Kaja Gruntkowska, Alexander Gaponov, Zhirayr Tovmasyan, Peter Richtárik,
- Abstract要約: 我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
- 参考スコア(独自算出の注目度): 80.90330715662961
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent optimizers like Muon, Scion, and Gluon have pushed the frontier of large-scale deep learning by exploiting layer-wise linear minimization oracles (LMOs) over non-Euclidean norm balls, capturing neural network structure in ways traditional algorithms cannot. Yet, no principled distributed framework exists for these methods, and communication bottlenecks remain unaddressed. The very few distributed variants are heuristic, with no convergence guarantees in sight. We introduce EF21-Muon, the first communication-efficient, non-Euclidean LMO-based optimizer with rigorous convergence guarantees. EF21-Muon supports stochastic gradients, momentum, and bidirectional compression with error feedback-marking the first extension of error feedback beyond the Euclidean setting. It recovers Muon/Scion/Gluon when compression is off and specific norms are chosen, providing the first efficient distributed implementation of this powerful family. Our theory covers non-Euclidean smooth and the more general $(L^0, L^1)$-smooth setting, matching best-known Euclidean rates and enabling faster convergence under suitable norm choices. We further extend the analysis to layer-wise (generalized) smoothness regimes, capturing the anisotropic structure of deep networks. Experiments on NanoGPT benchmarking EF21-Muon against uncompressed Muon/Scion/Gluon demonstrate up to $7\times$ communication savings with no accuracy degradation.
- Abstract(参考訳): Muon、Scion、Gluonといった最近のオプティマイザは、非ユークリッド標準球上で階層的に線形化オーラクル(LMO)を利用して、ニューラルネットワーク構造を従来のアルゴリズムでは不可能な方法でキャプチャすることで、大規模なディープラーニングのフロンティアを推し進めている。
しかし、これらの手法には原則化された分散フレームワークは存在せず、通信ボトルネックは未解決のままである。
ごく少数の分散変種はヒューリスティックであり、収束保証はない。
我々は、厳密な収束保証を備えた最初の通信効率、非ユークリッドLMOベースのオプティマイザEF21-Muonを紹介する。
EF21-Muonは確率勾配、運動量、双方向圧縮をサポートし、エラーフィードバックはユークリッド設定を超えてエラーフィードバックの最初の拡張を示す。
圧縮がオフになり、特定のノルムが選択されると、Muon/Scion/Gluonを回復し、この強力なファミリーの最初の効率的な分散実装を提供する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L^0, L^1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度に一致し、適切なノルム選択の下でより高速な収束を可能にする。
さらに、層状(一般化された)滑らかな構造に解析を拡張し、深層ネットワークの異方性構造を捉える。
EF21-Muonを非圧縮のMuon/Scion/Gluonに対してベンチマークするNanoGPTの実験では、精度の劣化のない通信節約が最大7\times$である。
関連論文リスト
- On the Convergence of Muon and Beyond [31.900178928104648]
Muon はニューラルネットワークの行列構造パラメーターにおいて顕著な成功を収めた。
理論と実効率の違いの間には、大きな理解ギャップが持続する。
この研究は、ムオン形式の最適性の最初の証明を提供し、イット収束に関する我々の発見を裏付けるものである。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z) - Muon Optimizes Under Spectral Norm Constraints [12.29696026957078]
重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
論文 参考訳(メタデータ) (2025-06-18T01:32:39Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - Mirror Descent Under Generalized Smoothness [23.5387392871236]
一般ノルムと双対という観点からヘッセンのノルムを測定する新しい$ell*$-smoothnessの概念を導入する。
我々は、古典的な滑らかさの下でのレートに一致するミラー・ディフレッシュ型アルゴリズムの収束性を確立する。
論文 参考訳(メタデータ) (2025-02-02T11:23:10Z) - MARINA-P: Superior Performance in Non-smooth Federated Optimization with Adaptive Stepsizes [57.24311218570012]
EF21-P (匿名2024) と MARINA-P (arXiv:2402.06412) の非滑らか凸理論を非サイズ凸設定で拡張する。
我々は、定数、減少、適応(aktype)ステップの理論的保証を提供する。
論文 参考訳(メタデータ) (2024-12-22T16:18:34Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - Gradient-Free Methods for Deterministic and Stochastic Nonsmooth
Nonconvex Optimization [94.19177623349947]
非滑らかな非最適化問題は、機械学習とビジネス製造に現れる。
2つのコア課題は、有限収束を保証する効率的な方法の開発を妨げる。
GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。
論文 参考訳(メタデータ) (2022-09-12T06:53:24Z) - Log-based Sparse Nonnegative Matrix Factorization for Data
Representation [55.72494900138061]
非負の行列因子化(NMF)は、非負のデータを部品ベースの表現で表すことの有効性から、近年広く研究されている。
そこで本研究では,係数行列に対数ノルムを課した新しいNMF法を提案する。
提案手法のロバスト性を高めるために,$ell_2,log$-(pseudo) ノルムを新たに提案した。
論文 参考訳(メタデータ) (2022-04-22T11:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。