論文の概要: Compressed Communication for Distributed Training: Adaptive Methods and
System
- arxiv url: http://arxiv.org/abs/2105.07829v1
- Date: Mon, 17 May 2021 13:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:23:40.521082
- Title: Compressed Communication for Distributed Training: Adaptive Methods and
System
- Title(参考訳): 分散訓練のための圧縮通信:適応的手法とシステム
- Authors: Yuchen Zhong, Cong Xie, Shuai Zheng, Haibin Lin
- Abstract要約: 通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
- 参考スコア(独自算出の注目度): 13.244482588437972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication overhead severely hinders the scalability of distributed
machine learning systems. Recently, there has been a growing interest in using
gradient compression to reduce the communication overhead of the distributed
training. However, there is little understanding of applying gradient
compression to adaptive gradient methods. Moreover, its performance benefits
are often limited by the non-negligible compression overhead. In this paper, we
first introduce a novel adaptive gradient method with gradient compression. We
show that the proposed method has a convergence rate of
$\mathcal{O}(1/\sqrt{T})$ for non-convex problems. In addition, we develop a
scalable system called BytePS-Compress for two-way compression, where the
gradients are compressed in both directions between workers and parameter
servers. BytePS-Compress pipelines the compression and decompression on CPUs
and achieves a high degree of parallelism. Empirical evaluations show that we
improve the training time of ResNet50, VGG16, and BERT-base by 5.0%, 58.1%,
23.3%, respectively, without any accuracy loss with 25 Gb/s networking.
Furthermore, for training the BERT models, we achieve a compression rate of
333x compared to the mixed-precision training.
- Abstract(参考訳): 通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,分散トレーニングの通信オーバーヘッドを軽減するため,勾配圧縮の利用に対する関心が高まっている。
しかし、適応勾配法に勾配圧縮を適用することについてはほとんど理解されていない。
さらに、パフォーマンス上の利点は、不要な圧縮オーバーヘッドによってしばしば制限される。
本稿ではまず,勾配圧縮を用いた適応勾配法を提案する。
提案手法は非凸問題に対して$\mathcal{O}(1/\sqrt{T})$の収束率を持つことを示す。
さらに,2方向圧縮のためのBytePS-Compressと呼ばれるスケーラブルなシステムを開発し,労働者とパラメータサーバの双方の方向に勾配を圧縮する。
BytePS-CompressはCPUの圧縮と圧縮をパイプライン化し、高い並列性を実現する。
ResNet50, VGG16, BERT-baseのトレーニング時間を5.0%, 58.1%, 23.3%改善した。
さらに、BERTモデルのトレーニングでは、混合精度トレーニングと比較して333倍の圧縮率が得られる。
関連論文リスト
- Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - Beyond Throughput and Compression Ratios: Towards High End-to-end Utility of Gradient Compression [13.255861297820326]
勾配圧縮は、通信された勾配データ量を減らすことができる。
実際には、勾配圧縮スキームはトレーニングプロセスの加速を達成せず、精度を保っている。
従来の勾配圧縮システムにおける共通問題と評価手法について述べる。
論文 参考訳(メタデータ) (2024-07-01T15:32:28Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。
我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文 参考訳(メタデータ) (2021-09-26T05:16:12Z) - CD-SGD: Distributed Stochastic Gradient Descent with Compression and
Delay Compensation [3.0786359925181315]
分散計算トレーニングにおいて、通信オーバーヘッドが重要な課題である。
勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。
しかし、勾配圧縮は追加コストをもたらし、次のトレーニングイテレーションを遅らせる。
論文 参考訳(メタデータ) (2021-06-21T01:15:12Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。