論文の概要: BEER: Fast $O(1/T)$ Rate for Decentralized Nonconvex Optimization with
Communication Compression
- arxiv url: http://arxiv.org/abs/2201.13320v1
- Date: Mon, 31 Jan 2022 16:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 16:11:11.741897
- Title: BEER: Fast $O(1/T)$ Rate for Decentralized Nonconvex Optimization with
Communication Compression
- Title(参考訳): BEER:通信圧縮による分散非凸最適化のための高速O(1/T)$レート
- Authors: Haoyu Zhao, Boyue Li, Zhize Li, Peter Richt\'arik, Yuejie Chi
- Abstract要約: コミュニケーション効率は大規模分散機械学習アプリケーションのボトルネックとして広く認識されている。
本稿では,勾配追跡と通信を併用したBEERを提案し,より高速に収束することを示す。
- 参考スコア(独自算出の注目度): 37.20712215269538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication efficiency has been widely recognized as the bottleneck for
large-scale decentralized machine learning applications in multi-agent or
federated environments. To tackle the communication bottleneck, there have been
many efforts to design communication-compressed algorithms for decentralized
nonconvex optimization, where the clients are only allowed to communicate a
small amount of quantized information (aka bits) with their neighbors over a
predefined graph topology. Despite significant efforts, the state-of-the-art
algorithm in the nonconvex setting still suffers from a slower rate of
convergence $O((G/T)^{2/3})$ compared with their uncompressed counterpart,
where $G$ measures the data heterogeneity across different clients, and $T$ is
the number of communication rounds. This paper proposes BEER, which adopts
communication compression with gradient tracking, and shows it converges at a
faster rate of $O(1/T)$. This significantly improves over the state-of-the-art
rate, by matching the rate without compression even under arbitrary data
heterogeneity. Numerical experiments are also provided to corroborate our
theory and confirm the practical superiority of BEER in the data heterogeneous
regime.
- Abstract(参考訳): コミュニケーション効率は、マルチエージェントやフェデレーション環境での大規模分散機械学習アプリケーションのボトルネックとして広く認識されている。
通信ボトルネックに対処するために、クライアントは事前定義されたグラフトポロジー上で、少数の量子化情報(ビット)を隣人としか通信できない分散非凸最適化のための通信圧縮アルゴリズムを設計するために多くの努力がなされてきた。
かなりの努力にもかかわらず、非凸設定における最先端のアルゴリズムは、異なるクライアント間のデータの異質性を測定する$G$と、通信ラウンドの数である$O((G/T)^{2/3})$との収束速度が遅い。
本稿では,通信圧縮と勾配追跡を併用したBEERを提案し,より高速なO(1/T)$で収束することを示す。
これは、任意のデータ不均一性の下でも圧縮なしでのレートをマッチングすることで、最先端の速度を大幅に改善する。
また,本理論を裏付ける数値実験を行い,データヘテロジニアス構造におけるビールの実用的優位性を検証した。
関連論文リスト
- Towards Faster Decentralized Stochastic Optimization with Communication Compression [27.484212303346816]
MoTEFは,Momentum Tracking と Error Feedback との通信を統合する新しい手法である。
我々の分析は、MoTEFが所望のプロパティの大部分と、データの下でかなり既存のメソッドを統合することを実証している。
論文 参考訳(メタデータ) (2024-05-30T14:51:57Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-12T15:12:17Z) - Faster Rates for Compressed Federated Learning with Client-Variance
Reduction [23.169998435268504]
我々はCOFIGとFRECONが$O(frac(1+omega)sqrtNSepsilon2)$通信ラウンドに収束していることを示す。
凸設定では、COFIGは$O(frac(1+omega)sqrtNSepsilon2)$通信ラウンドに収束する。
論文 参考訳(メタデータ) (2021-12-24T16:28:18Z) - Acceleration in Distributed Optimization Under Similarity [72.54787082152278]
集中ノードを持たないエージェントネットワーク上での分散(強い凸)最適化問題について検討する。
$varepsilon$-solutionは$tildemathcalrhoObig(sqrtfracbeta/mu (1-)log1/varepsilonbig)$通信ステップ数で達成される。
この速度は、関心のクラスに適用される分散ゴシップ-アルゴリズムの、初めて(ポリログ因子まで)より低い複雑性の通信境界と一致する。
論文 参考訳(メタデータ) (2021-10-24T04:03:00Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - CFedAvg: Achieving Efficient Communication and Fast Convergence in
Non-IID Federated Learning [8.702106020664612]
フェデレートラーニング(Federated Learning, FL)は、多くの労働者がトレーニングデータを共有せずにモデルを共同で学習する分散ラーニングパラダイムである。
FLでは、ディープラーニング(ディープ)学習モデルと帯域幅接続によって高い通信コストが発生する可能性がある。
本研究では,非バイアスのSNR制約圧縮機を用いたFL用分散通信データセットCFedAvgを紹介する。
論文 参考訳(メタデータ) (2021-06-14T04:27:19Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。