論文の概要: Evaluation and Optimization of Gradient Compression for Distributed Deep
Learning
- arxiv url: http://arxiv.org/abs/2306.08881v1
- Date: Thu, 15 Jun 2023 06:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:23:10.486947
- Title: Evaluation and Optimization of Gradient Compression for Distributed Deep
Learning
- Title(参考訳): 分散ディープラーニングのための勾配圧縮の評価と最適化
- Authors: Lin Zhang, Longteng Zhang, Shaohuai Shi, Xiaowen Chu, Bo Li
- Abstract要約: 同期勾配降下(S-SGD)における通信ボトルネックを軽減するための勾配圧縮法が提案されている。
そこで本研究では,交流圧縮パワーSGD(ACP-SGD)と呼ばれる新しい勾配圧縮手法を提案する。
ACP-SGD は S-SGD と Power-SGD でそれぞれ平均 4.06x と 1.43x のスピードアップを達成し、異なる設定で他のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 19.08716369943138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To accelerate distributed training, many gradient compression methods have
been proposed to alleviate the communication bottleneck in synchronous
stochastic gradient descent (S-SGD), but their efficacy in real-world
applications still remains unclear. In this work, we first evaluate the
efficiency of three representative compression methods (quantization with
Sign-SGD, sparsification with Top-k SGD, and low-rank with Power-SGD) on a
32-GPU cluster. The results show that they cannot always outperform
well-optimized S-SGD or even worse due to their incompatibility with three key
system optimization techniques (all-reduce, pipelining, and tensor fusion) in
S-SGD. To this end, we propose a novel gradient compression method, called
alternate compressed Power-SGD (ACP-SGD), which alternately compresses and
communicates low-rank matrices. ACP-SGD not only significantly reduces the
communication volume, but also enjoys the three system optimizations like
S-SGD. Compared with Power-SGD, the optimized ACP-SGD can largely reduce the
compression and communication overheads, while achieving similar model
accuracy. In our experiments, ACP-SGD achieves an average of 4.06x and 1.43x
speedups over S-SGD and Power-SGD, respectively, and it consistently
outperforms other baselines across different setups (from 8 GPUs to 64 GPUs and
from 1Gb/s Ethernet to 100Gb/s InfiniBand).
- Abstract(参考訳): 分散学習を加速するために、同期確率勾配降下(S-SGD)における通信ボトルネックを軽減するために、多くの勾配圧縮法が提案されている。
本研究では,32GPUクラスタ上での3つの代表圧縮手法(Sign-SGDによる量子化,Top-k SGDによるスパース化,Power-SGDによる低ランク化)の効率性を評価する。
その結果、S-SGDにおける3つの主要な最適化手法(全リデュース、パイプライニング、テンソル融合)と相容れないため、常に最適化されたS-SGDを上回り、さらに悪くなることはないことがわかった。
そこで本研究では,低ランク行列を交互に圧縮・通信する,代替圧縮パワーSGD (ACP-SGD) と呼ばれる新しい勾配圧縮手法を提案する。
ACP-SGDは通信量を大幅に削減するだけでなく、S-SGDのような3つのシステム最適化も享受している。
Power-SGDと比較して、最適化されたACP-SGDは、同様のモデルの精度を達成しつつ、圧縮と通信のオーバーヘッドを大幅に削減することができる。
我々の実験では、ACP-SGDはS-SGDとPower-SGDでそれぞれ平均4.06xと1.43xのスピードアップを達成し、異なるセットアップ(GPU8台から64GPU、1Gb/sイーサネット100Gb/s InfiniBand)で他のベースラインを一貫して上回ります。
関連論文リスト
- Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - Compressed Communication for Distributed Training: Adaptive Methods and
System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:41:47Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - GAN Slimming: All-in-One GAN Compression by A Unified Optimization
Framework [94.26938614206689]
本稿では,GANスライミング(GAN Slimming)と呼ばれる,GAN圧縮のための複数の圧縮手段を組み合わせた最初の統一最適化フレームワークを提案する。
我々はGSを用いて、最先端のトランスファーネットワークであるCartoonGANを最大47倍圧縮し、視覚的品質を最小限に抑える。
論文 参考訳(メタデータ) (2020-08-25T14:39:42Z) - Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning [6.370766463380455]
コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T00:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。