論文の概要: FedMuon: Federated Learning with Bias-corrected LMO-based Optimization
- arxiv url: http://arxiv.org/abs/2509.26337v1
- Date: Tue, 30 Sep 2025 14:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.585355
- Title: FedMuon: Federated Learning with Bias-corrected LMO-based Optimization
- Title(参考訳): FedMuon: バイアス修正LMOベースの最適化によるフェデレートラーニング
- Authors: Yuki Takezawa, Anastasia Koloskova, Xiaowen Jiang, Sebastian U. Stich,
- Abstract要約: 我々は,ミュオンがフェデレートラーニングにどのように活用できるかを考察した。
我々はFedMuonが最先端のフェデレーション学習手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 36.00641661700195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a new optimization method based on the linear minimization oracle (LMO), called Muon, has been attracting increasing attention since it can train neural networks faster than existing adaptive optimization methods, such as Adam. In this paper, we study how Muon can be utilized in federated learning. We first show that straightforwardly using Muon as the local optimizer of FedAvg does not converge to the stationary point since the LMO is a biased operator. We then propose FedMuon which can mitigate this issue. We also analyze how solving the LMO approximately affects the convergence rate and find that, surprisingly, FedMuon can converge for any number of Newton-Schulz iterations, while it can converge faster as we solve the LMO more accurately. Through experiments, we demonstrated that FedMuon can outperform the state-of-the-art federated learning methods.
- Abstract(参考訳): 近年,Muonと呼ばれる線形最小化オラクル(LMO)に基づく新しい最適化手法が注目されている。
本稿では,ミュオンをフェデレート学習に活用する方法を検討する。
まず、FedAvg の局所最適化器として Muon を直接使用すると、LMO は偏りのある作用素であるため定常点に収束しないことを示す。
次に、この問題を緩和できるFedMuonを提案します。
また、LMOの解法が収束率にどのように影響するかを分析し、驚くべきことに、FedMuonはニュートン・シュルツの反復数に対して収束できるが、LMOをより正確に解くとより早く収束できる。
実験により、FedMuonは最先端のフェデレーション学習手法より優れていることを示した。
関連論文リスト
- Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - LiMuon: Light and Fast Muon Optimizer for Large Models [45.11415579822849]
大規模モデルのトレーニングに有用なMuonを提案する。
私たちのLiMuonは、現在のMuonとその変種よりもメモリが低い。
一般化された滑らかな条件下でLiMuonがサンプルO(epsilon-3)$であることを証明する。
論文 参考訳(メタデータ) (2025-09-18T02:49:27Z) - Lions and Muons: Optimization via Stochastic Frank-Wolfe [11.287482309003334]
重量減衰を持つライオンとムオンは、フランク=ウルフの特別な例と見なすことができる。
また、このギャップへの収束はノルム制約の下での元の問題のKKT点への収束を意味する。
論文 参考訳(メタデータ) (2025-06-04T17:39:03Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - A Newton Frank-Wolfe Method for Constrained Self-Concordant Minimization [60.90222082871258]
本稿では,制約集合上の線形最小化オラクル(LMO)を用いて,制約付き自己調和最小化問題のクラスをカラフルに解く方法を示す。
L-smoothの場合、我々の手法のLMO呼び出し数はFrank-Wolfe法とほぼ同じであることを示す。
論文 参考訳(メタデータ) (2020-02-17T15:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。