論文の概要: Communication-Efficient Gluon in Federated Learning
- arxiv url: http://arxiv.org/abs/2604.10689v1
- Date: Sun, 12 Apr 2026 15:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.173966
- Title: Communication-Efficient Gluon in Federated Learning
- Title(参考訳): フェデレーション学習におけるコミュニケーション効率のよいグルーオン
- Authors: Xun Qian, Alexander Gaponov, Grigory Malinovsky, Peter Richtárik,
- Abstract要約: より一般的な層次$(L0, L1)$-smooth設定の下で、ムオンの拡張であるグルーオンについて検討する。
圧縮誤差を低減するため,SARAHにおける分散低減手法を圧縮法に適用した。
- 参考スコア(独自算出の注目度): 89.94131981227609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments have shown that Muon-type optimizers based on linear minimization oracles (LMOs) over non-Euclidean norm balls have the potential to get superior practical performance than Adam-type methods in the training of large language models. Since large-scale neural networks are trained across massive machines, communication cost becomes the bottleneck. To address this bottleneck, we investigate Gluon, which is an extension of Muon under the more general layer-wise $(L^0, L^1)$-smooth setting, with both unbiased and contraction compressors. In order to reduce the compression error, we employ the variance reduced technique in SARAH in our compressed methods. The convergence rates and improved communication cost are achieved under certain conditions. As a byproduct, a new variance reduced algorithm with faster convergence rate than Gluon is obtained. We also incorporate momentum variance reduction (MVR) to these compressed algorithms and comparable communication cost is derived under weaker conditions when $L_i^1 \neq 0$. Finally, several numerical experiments are conducted to verify the superior performance of our compressed algorithms in terms of communication cost.
- Abstract(参考訳): 近年、非ユークリッド標準球に対する線形最小化オラクル(LMO)に基づくミューオン型最適化器は、大規模言語モデルの訓練においてアダム型手法よりも優れた実用的な性能が得られる可能性が示されている。
大規模ニューラルネットワークは大規模マシンでトレーニングされるため、通信コストがボトルネックとなる。
このボトルネックに対処するために,より一般的な層次$(L^0, L^1)$-smooth設定下でのミューオンの拡張であるGluonについて,非バイアス圧縮機と収縮圧縮機の両方を用いて検討する。
圧縮誤差を低減するため,SARAHにおける分散低減手法を圧縮法に適用した。
収束率と通信コストの改善は、一定の条件下で達成される。
副生成物として,Gluonよりも収束速度が速い新しい分散低減アルゴリズムが得られた。
また、これらの圧縮アルゴリズムに運動量分散低減(MVR)を導入し、$L_i^1 \neq 0$のとき、より弱い条件で通信コストを導出する。
最後に,通信コストの観点から,圧縮アルゴリズムの優れた性能を検証するために,いくつかの数値実験を行った。
関連論文リスト
- Performance of Neural and Polynomial Operator Surrogates [0.822469542459168]
ポリノミアルサロゲートはスムーズな入力フィールドに対するデータ効率を大幅に向上させる。
粗い入力に対しては、フーリエニューラル演算子は最も速い収束率を示す。
ative-informedトレーニングは、標準の$L2_$トレーニングよりもデータ効率を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-01T09:46:25Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - Compressed and Sparse Models for Non-Convex Decentralized Learning [6.14375469212514]
頻繁なモデル通信は、分散機械学習の効率にとって重要なボトルネックである。
モデル空間と勾配勾配を組み合わせた新しい分散MLアルゴリズムであるMalcom-PSGDを提案する。
本手法は,最先端技術と比較して通信コストを約75%削減する。
論文 参考訳(メタデータ) (2023-11-09T21:55:53Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - BEER: Fast $O(1/T)$ Rate for Decentralized Nonconvex Optimization with
Communication Compression [37.20712215269538]
コミュニケーション効率は大規模分散機械学習アプリケーションのボトルネックとして広く認識されている。
本稿では,勾配追跡と通信を併用したBEERを提案し,より高速に収束することを示す。
論文 参考訳(メタデータ) (2022-01-31T16:14:09Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - Rethinking gradient sparsification as total error minimization [0.0]
分散トレーニングネットワーク(DNN)における通信ボトルネックに対処する手段として,グラディエント圧縮が広く確立されている。
我々は、特にDNNにとって、勾配スペーシフィケーションの利点は必要であると主張する。
論文 参考訳(メタデータ) (2021-08-02T14:52:42Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。