論文の概要: S2 Reducer: High-Performance Sparse Communication to Accelerate
Distributed Deep Learning
- arxiv url: http://arxiv.org/abs/2110.02140v1
- Date: Tue, 5 Oct 2021 16:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:05:29.871238
- Title: S2 Reducer: High-Performance Sparse Communication to Accelerate
Distributed Deep Learning
- Title(参考訳): s2 reducer: 分散ディープラーニングを高速化する高性能スパース通信
- Authors: Keshi Ge, Yongquan Fu, Zhiquan Lai, Xiaoge Deng, Dongsheng Li
- Abstract要約: 本稿では,収差保証付き新規なスケッチベーススパース勾配法であるスパース・スケッチ・リデューサ (S2 Reducer) を提案する。
S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減できる。
以上の結果から,S2reduceerは同じ精度に収束し,スパース通信のオーバーヘッドを81%低減し,最先端手法と比較して1.8$$の高速化を実現した。
- 参考スコア(独自算出の注目度): 11.21739015522637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed stochastic gradient descent (SGD) approach has been widely used
in large-scale deep learning, and the gradient collective method is vital to
ensure the training scalability of the distributed deep learning system.
Collective communication such as AllReduce has been widely adopted for the
distributed SGD process to reduce the communication time. However, AllReduce
incurs large bandwidth resources while most gradients are sparse in many cases
since many gradient values are zeros and should be efficiently compressed for
bandwidth saving. To reduce the sparse gradient communication overhead, we
propose Sparse-Sketch Reducer (S2 Reducer), a novel sketch-based sparse
gradient aggregation method with convergence guarantees. S2 Reducer reduces the
communication cost by only compressing the non-zero gradients with count-sketch
and bitmap, and enables the efficient AllReduce operators for parallel SGD
training. We perform extensive evaluation against four state-of-the-art methods
over five training models. Our results show that S2 Reducer converges to the
same accuracy, reduces 81\% sparse communication overhead, and achieves 1.8$
\times $ speedup compared to state-of-the-art approaches.
- Abstract(参考訳): 分散確率勾配勾配(SGD)アプローチは大規模深層学習において広く用いられており,分散深層学習システムのトレーニングスケーラビリティを確保するために,勾配集団法が不可欠である。
AllReduceのような集団通信は分散SGDプロセスに広く採用されており、通信時間を短縮している。
しかし、多くの勾配値がゼロであり、帯域節約のために効率的に圧縮されるべきであるため、allreduceは大きな帯域幅リソースを伴います。
疎勾配通信のオーバーヘッドを低減するために,新しいスケッチ型疎勾配集約法であるsparse-sketch reducer (s2 reducer)を提案する。
S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減し、並列SGDトレーニングのための効率的なAllReduce演算子を実現する。
5つのトレーニングモデルに対して4つの最先端手法に対して広範な評価を行う。
以上の結果から,S2reduceerは同じ精度に収束し,81 %の疎通信オーバーヘッドを低減し,最先端手法と比較して1.8$ \times $ Speedupを実現した。
関連論文リスト
- Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods [17.006352664497122]
現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
ワーカの数が増えるにつれて、通信オーバーヘッドがデータ並列のミニバッチ勾配法における主要なボトルネックとなる。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
論文 参考訳(メタデータ) (2024-06-20T02:08:50Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - RS-DGC: Exploring Neighborhood Statistics for Dynamic Gradient
Compression on Remote Sensing Image Interpretation [23.649838489244917]
通信コスト削減のためのGC技術として,勾配スペーシフィケーションの有効性が検証されている。
本稿では,RS-DGC画像解釈のための近傍統計指標を用いた簡易かつ効果的な動的勾配圧縮手法を提案する。
NWPU-RESISC45データセットの50倍以上の通信圧縮で0.51%の精度向上を実現した。
論文 参考訳(メタデータ) (2023-12-29T09:24:26Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Compressed Communication for Distributed Training: Adaptive Methods and
System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:41:47Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - Efficient Distributed Auto-Differentiation [22.192220404846267]
大規模ディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
このプロセスは、バックプロパゲーション中のグラデーション平均の柔軟性を提供し、新しい柔軟なトレーニングスキーマを可能にします。
論文 参考訳(メタデータ) (2021-02-18T21:46:27Z) - DeepReduce: A Sparse-tensor Communication Framework for Distributed Deep
Learning [79.89085533866071]
本稿では,スパーステンソルの圧縮通信のための汎用的フレームワークであるDeepReduceを紹介する。
DeepReduceはテンソルを2つの集合、値とインデックスに分解し、これらの集合の独立圧縮と結合圧縮を可能にする。
大規模実モデルを用いた実験により,DeepReduceはデータ転送を少なくし,既存の手法よりも計算オーバーヘッドを小さくすることを示した。
論文 参考訳(メタデータ) (2021-02-05T11:31:24Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。