論文の概要: An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems
- arxiv url: http://arxiv.org/abs/2101.10761v1
- Date: Tue, 26 Jan 2021 13:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:44:25.372771
- Title: An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems
- Title(参考訳): 分散トレーニングシステムにおける効率的な統計的グラデーション圧縮手法
- Authors: Ahmed M. Abdelmoniem and Ahmed Elzanaty and Mohamed-Slim Alouini and
Marco Canini
- Abstract要約: Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
- 参考スコア(独自算出の注目度): 77.88178159830905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent many-fold increase in the size of deep neural networks makes
efficient distributed training challenging. Many proposals exploit the
compressibility of the gradients and propose lossy compression techniques to
speed up the communication stage of distributed training. Nevertheless,
compression comes at the cost of reduced model quality and extra computation
overhead. In this work, we design an efficient compressor with minimal
overhead. Noting the sparsity of the gradients, we propose to model the
gradients as random variables distributed according to some sparsity-inducing
distributions (SIDs). We empirically validate our assumption by studying the
statistical characteristics of the evolution of gradient vectors over the
training process. We then propose Sparsity-Inducing Distribution-based
Compression (SIDCo), a threshold-based sparsification scheme that enjoys
similar threshold estimation quality to deep gradient compression (DGC) while
being faster by imposing lower compression overhead. Our extensive evaluation
of popular machine learning benchmarks involving both recurrent neural network
(RNN) and convolution neural network (CNN) models shows that SIDCo speeds up
training by up to 41:7%, 7:6%, and 1:9% compared to the no-compression
baseline, Topk, and DGC compressors, respectively.
- Abstract(参考訳): 最近のディープニューラルネットワークのサイズ拡大は、効率的な分散トレーニングを難しくしている。
多くの提案はグラデーションの圧縮性を利用し、分散トレーニングのコミュニケーションステージをスピードアップするために損失のある圧縮技術を提案する。
それにもかかわらず、圧縮はモデル品質の低下と余分な計算オーバーヘッドのコストが伴う。
本研究では, 最小オーバーヘッドの効率的な圧縮機を設計する。
グラデーションのスパース性に注目し,スパース性誘起分布(SID)に従って分布するランダム変数としてグラデーションをモデル化することを提案する。
我々は,学習過程における勾配ベクトルの進化の統計的特性を調べることにより,仮定を実証的に検証する。
次に、より低い圧縮オーバーヘッドを課し、より高速なDGC(Deep gradient compression)に類似したしきい値推定品質を享受する閾値ベースのスペーシフィケーションスキームであるスペーシリティ誘導型分散圧縮(SIDCo)を提案する。
recurrent neural network (rnn) とconvolution neural network (cnn) モデルの両方を用いた一般的な機械学習ベンチマークの広範な評価結果から,sidcoは,no-compression base,topk,dgc compressorと比較して,最大41:7%,7:6%,1:9%のトレーニング速度を示している。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and
Accurate Deep Learning [24.712888488317816]
トレーニング中にモデルの層をまたいだ圧縮の度合いを動的に適用するためのフレームワークを提供する。
我々のフレームワークはL-GreCoと呼ばれ、モデル層に対する最適圧縮パラメータを自動的に選択する適応アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:37:41Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - Compressed Communication for Distributed Training: Adaptive Methods and
System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:41:47Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - On the Utility of Gradient Compression in Distributed Training Systems [9.017890174185872]
本稿では,勾配圧縮法の有効性を評価し,そのスケーラビリティを同期データ並列sgdの最適化実装と比較する。
意外なことに、勾配圧縮によって引き起こされる計算オーバーヘッドのため、バニラデータ並列トレーニングのネットスピードアップは、負でなくても限界である。
論文 参考訳(メタデータ) (2021-02-28T15:58:45Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。