論文の概要: Sparse Communication for Training Deep Networks
- arxiv url: http://arxiv.org/abs/2009.09271v1
- Date: Sat, 19 Sep 2020 17:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:12:30.096558
- Title: Sparse Communication for Training Deep Networks
- Title(参考訳): 深層ネットワーク訓練のためのスパース通信
- Authors: Negar Foroutan Eghlidi and Martin Jaggi
- Abstract要約: 同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
- 参考スコア(独自算出の注目度): 56.441077560085475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synchronous stochastic gradient descent (SGD) is the most common method used
for distributed training of deep learning models. In this algorithm, each
worker shares its local gradients with others and updates the parameters using
the average gradients of all workers. Although distributed training reduces the
computation time, the communication overhead associated with the gradient
exchange forms a scalability bottleneck for the algorithm. There are many
compression techniques proposed to reduce the number of gradients that needs to
be communicated. However, compressing the gradients introduces yet another
overhead to the problem. In this work, we study several compression schemes and
identify how three key parameters affect the performance. We also provide a set
of insights on how to increase performance and introduce a simple
sparsification scheme, random-block sparsification, that reduces communication
while keeping the performance close to standard SGD.
- Abstract(参考訳): 同期確率勾配降下法(sgd)は、ディープラーニングモデルの分散トレーニングに用いられる最も一般的な方法である。
このアルゴリズムでは、各ワーカーは局所的な勾配を他の労働者と共有し、すべての労働者の平均勾配を用いてパラメータを更新する。
分散トレーニングは計算時間を短縮するが、勾配交換に伴う通信オーバーヘッドはアルゴリズムのスケーラビリティのボトルネックとなる。
通信を必要とする勾配を減らすために多くの圧縮技術が提案されている。
しかし、勾配の圧縮は問題にさらに別のオーバーヘッドをもたらす。
本研究では,複数の圧縮スキームを調査し,3つのキーパラメータが性能に与える影響を検証した。
また,性能向上の方法や,標準的なSGDに近い性能を維持しつつ通信を減らし,単純なスペーシフィケーション方式であるランダムブロックスペーシフィケーションを導入している。
関連論文リスト
- Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods [17.006352664497122]
現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
ワーカの数が増えるにつれて、通信オーバーヘッドがデータ並列のミニバッチ勾配法における主要なボトルネックとなる。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
論文 参考訳(メタデータ) (2024-06-20T02:08:50Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - Learned Gradient Compression for Distributed Deep Learning [16.892546958602303]
高次元データを含む大規模なデータセットでディープニューラルネットワークをトレーニングするには、大量の計算が必要です。
この問題の解決策は、データ並列分散トレーニングであり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスできる。
しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。
論文 参考訳(メタデータ) (2021-03-16T06:42:36Z) - Efficient Distributed Auto-Differentiation [22.192220404846267]
大規模ディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
このプロセスは、バックプロパゲーション中のグラデーション平均の柔軟性を提供し、新しい柔軟なトレーニングスキーマを可能にします。
論文 参考訳(メタデータ) (2021-02-18T21:46:27Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。