論文の概要: Distributed Sparse SGD with Majority Voting
- arxiv url: http://arxiv.org/abs/2011.06495v1
- Date: Thu, 12 Nov 2020 17:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 08:00:41.758118
- Title: Distributed Sparse SGD with Majority Voting
- Title(参考訳): 多数投票による分散スパースSGD
- Authors: Kerem Ozfatura and Emre Ozfatura and Deniz Gunduz
- Abstract要約: 分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。
テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 5.32836690371986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed learning, particularly variants of distributed stochastic
gradient descent (DSGD), are widely employed to speed up training by leveraging
computational resources of several workers. However, in practise, communication
delay becomes a bottleneck due to the significant amount of information that
needs to be exchanged between the workers and the parameter server. One of the
most efficient strategies to mitigate the communication bottleneck is top-K
sparsification. However, top-K sparsification requires additional communication
load to represent the sparsity pattern, and the mismatch between the sparsity
patterns of the workers prevents exploitation of efficient communication
protocols. To address these issues, we introduce a novel majority voting based
sparse communication strategy, in which the workers first seek a consensus on
the structure of the sparse representation. This strategy provides a
significant reduction in the communication load and allows using the same
sparsity level in both communication directions. Through extensive simulations
on the CIFAR-10 dataset, we show that it is possible to achieve up to x4000
compression without any loss in the test accuracy.
- Abstract(参考訳): 分散学習、特に分散確率勾配降下(dsgd)の変種は、複数の労働者の計算資源を活用してトレーニングをスピードアップするために広く使われている。
しかし,実践では,作業者とパラメータサーバの間で大量の情報交換を行う必要があるため,通信遅延がボトルネックとなる。
通信ボトルネックを軽減する最も効率的な戦略の1つは、トップKスペーシングである。
しかし、トップkスパーシフィケーションはスパーシリティパターンを表現するために追加の通信負荷を必要とし、労働者のスパーシティパターン間のミスマッチは効率的な通信プロトコルの利用を妨げている。
これらの問題に対処するために、労働者はまずスパース表現の構造に関する合意を求める新しい多数決ベースのスパースコミュニケーション戦略を導入する。
この戦略は通信負荷を大幅に削減し、両方の通信方向において同じスパーシティレベルを使用できる。
CIFAR-10データセットの広範なシミュレーションにより、テスト精度を損なうことなく、最大でx4000圧縮を実現することができることを示す。
関連論文リスト
- Communication-Efficient Federated Knowledge Graph Embedding with Entity-Wise Top-K Sparsification [49.66272783945571]
Federated Knowledge Graphs Embedding Learning (FKGE)は、パラメータのかなりのサイズと広範なコミュニケーションラウンドから生じるコミュニケーション効率の課題に直面する。
本稿では,Entity-Wise Top-K Sparsification 戦略に基づく双方向通信効率のFedSを提案する。
論文 参考訳(メタデータ) (2024-06-19T05:26:02Z) - Estimation Network Design framework for efficient distributed optimization [3.3148826359547514]
本稿では,分散イテレーションの解析と設計のためのグラフ理論言語である推定ネットワーク設計(END)を紹介する。
ENDアルゴリズムは特定の問題インスタンスのスパーシ性を活用し、通信オーバーヘッドを低減し、冗長性を最小化するために調整することができる。
特に、ADMM、AugDGM、Push-Sum DGDなど、確立された多くのメソッドのスパーシティ対応バージョンについて検討する。
論文 参考訳(メタデータ) (2024-04-23T17:59:09Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Communication-Efficient Federated Learning via Robust Distributed Mean
Estimation [16.41391088542669]
フェデレーション学習は分散(ミニバッチ)SGDのようなアルゴリズムに依存しており、複数のクライアントがその勾配を計算し、モデルを平均化し更新するための中央コーディネータに送信する。
DRIVEは、座標毎の1ビットで勾配を圧縮する(低次のオーバーヘッドがいくつかある)技術アルゴリズムの最近の状態である。
本技術報告ではDRIVEを一般化し、帯域幅制限をサポートし、またそれを拡張して異種クライアントリソースをサポートし、パケットロスに対して堅牢にする。
論文 参考訳(メタデータ) (2021-08-19T17:59:21Z) - Time-Correlated Sparsification for Communication-Efficient Federated
Learning [6.746400031322727]
フェデレーションラーニング(FL)により、複数のクライアントがローカルデータセットを開示することなく、共有モデルを共同でトレーニングできます。
FLにおける連続的な反復で使用されるスパース表現の間に一定の相関関係を求める新しい時間関連スペーシフィケーション手法を提案する。
本研究では,TCSが100倍のスパーシフィケーションと最大2000倍の通信負荷低減で集中型トレーニング精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-01-21T20:15:55Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。