論文の概要: Global Momentum Compression for Sparse Communication in Distributed Learning
- arxiv url: http://arxiv.org/abs/1905.12948v3
- Date: Wed, 3 Apr 2024 14:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 21:09:13.124214
- Title: Global Momentum Compression for Sparse Communication in Distributed Learning
- Title(参考訳): 分散学習における疎通信のためのグローバルモーメント圧縮
- Authors: Chang-Wei Shi, Shen-Yi Zhao, Yin-Peng Xie, Hao Gao, Wu-Jun Li,
- Abstract要約: 疎通信のための新しい手法として, Emphunderlineglobal emphunderlinemomentum emphunderlinecompression(GMC)を提案する。
我々の知る限りでは、分散学習におけるスパースコミュニケーションのグローバルな勢いを導入する最初の研究である。
- 参考スコア(独自算出の注目度): 10.532897783414343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of data, distributed momentum stochastic gradient descent~(DMSGD) has been widely used in distributed learning, especially for training large-scale deep models. Due to the latency and limited bandwidth of the network, communication has become the bottleneck of distributed learning. Communication compression with sparsified gradient, abbreviated as \emph{sparse communication}, has been widely employed to reduce communication cost. All existing works about sparse communication in DMSGD employ local momentum, in which the momentum only accumulates stochastic gradients computed by each worker locally. In this paper, we propose a novel method, called \emph{\underline{g}}lobal \emph{\underline{m}}omentum \emph{\underline{c}}ompression~(GMC), for sparse communication. Different from existing works that utilize local momentum, GMC utilizes global momentum. Furthermore, to enhance the convergence performance when using more aggressive sparsification compressors (e.g., RBGS), we extend GMC to GMC+. We theoretically prove the convergence of GMC and GMC+. To the best of our knowledge, this is the first work that introduces global momentum for sparse communication in distributed learning. Empirical results demonstrate that, compared with the local momentum counterparts, our GMC and GMC+ can achieve higher test accuracy and exhibit faster convergence, especially under non-IID data distribution.
- Abstract(参考訳): データの急速な成長に伴い、分散運動量確率勾配降下〜(DMSGD)は分散学習、特に大規模深層モデルの訓練に広く用いられている。
ネットワークのレイテンシと帯域幅の制限により、コミュニケーションは分散学習のボトルネックとなっている。
疎化勾配を用いた通信圧縮は,通信コスト削減のために広く利用されている。
DMSGDにおけるスパース通信に関するすべての既存の研究は局所運動量を使用し、各作業者が局所的に計算した確率勾配のみを蓄積する。
本稿では,疎通信のための新しい手法である \emph{\underline{g}}lobal \emph{\underline{m}}omentum \emph{\underline{c}}ompression~(GMC)を提案する。
局所運動量を利用する既存の作品とは異なり、GCCはグローバル運動量を利用する。
さらに,よりアグレッシブなスペーシフィケーション圧縮機(例えばRBGS)を用いた場合の収束性能を向上させるため,GMCをGMC+に拡張する。
理論的には GMC と GMC+ の収束を証明している。
我々の知る限りでは、分散学習におけるスパースコミュニケーションのグローバルな勢いを導入する最初の研究である。
実験の結果, GMCとGMC+は, 局所運動量と比較すると, 試験精度が向上し, 特に非IIDデータ分布下では, より高速な収束が期待できることがわかった。
関連論文リスト
- Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。
グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。
本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文 参考訳(メタデータ) (2024-06-25T14:57:38Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [56.21666819468249]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
我々は,emphScaffnewに実用的で効果的な圧縮を統合し,通信効率を向上するFedComLocを紹介した。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - Scalable Optimal Margin Distribution Machine [50.281535710689795]
ODM(Optimal margin Distribution Machine)は、新しいマージン理論に根ざした新しい統計学習フレームワークである。
本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。
論文 参考訳(メタデータ) (2023-05-08T16:34:04Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Distributed Sparse SGD with Majority Voting [5.32836690371986]
分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。
テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-12T17:06:36Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Communication Efficient Distributed Learning with Censored, Quantized,
and Generalized Group ADMM [52.12831959365598]
本稿では,相互接続作業者のネットワーク上で定義されたコンセンサス最適化問題を解決するための,コミュニケーション効率のよい分散機械学習フレームワークを提案する。
提案アルゴリズムであるCensored and Quantized Generalized GADMMは、GADMM(Group Alternating Direction Method of Multipliers)の労働者グループ化と分散学習のアイデアを活用する。
CQ-GGADMMは通信ラウンド数で高い通信効率を示し、精度と収束速度を損なうことなくエネルギー消費を伝達する。
論文 参考訳(メタデータ) (2020-09-14T14:18:19Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z) - Intermittent Pulling with Local Compensation for Communication-Efficient
Federated Learning [20.964434898554344]
Federated Learningは、高度に分散したデータでグローバルモデルをトレーニングするための強力な機械学習パラダイムである。
分散SGDの性能における大きなボトルネックは、ローカルおよびプルグローバルモデルをプッシュする際の通信オーバーヘッドである。
本稿では,通信オーバーヘッドを低減するため,PRLC (Gradient Pulling Compensation) という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T20:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。