論文の概要: MergeComp: A Compression Scheduler for Scalable Communication-Efficient
Distributed Training
- arxiv url: http://arxiv.org/abs/2103.15195v1
- Date: Sun, 28 Mar 2021 18:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 14:36:47.958271
- Title: MergeComp: A Compression Scheduler for Scalable Communication-Efficient
Distributed Training
- Title(参考訳): MergeComp: スケーラブルな分散トレーニングのための圧縮スケジューリング
- Authors: Zhuang Wang, Xinyu Wu, T.S. Eugene Ng
- Abstract要約: MergeCompは、通信効率のよい分散トレーニングのスケーラビリティを最適化する圧縮スケジューラである。
圧縮アルゴリズムの性能を3.83倍に向上するが、精度は低下しない。
高速ネットワーク上での分散トレーニングのスケーリング係数を最大99%達成することも可能だ。
- 参考スコア(独自算出の注目度): 8.150621147942449
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large-scale distributed training is increasingly becoming communication
bound. Many gradient compression algorithms have been proposed to reduce the
communication overhead and improve scalability. However, it has been observed
that in some cases gradient compression may even harm the performance of
distributed training.
In this paper, we propose MergeComp, a compression scheduler to optimize the
scalability of communication-efficient distributed training. It automatically
schedules the compression operations to optimize the performance of compression
algorithms without the knowledge of model architectures or system parameters.
We have applied MergeComp to nine popular compression algorithms. Our
evaluations show that MergeComp can improve the performance of compression
algorithms by up to 3.83x without losing accuracy. It can even achieve a
scaling factor of distributed training up to 99% over high-speed networks.
- Abstract(参考訳): 大規模分散トレーニングはコミュニケーションバウンダリになりつつある。
多くの勾配圧縮アルゴリズムが、通信オーバーヘッドを減らし、スケーラビリティを向上させるために提案されている。
しかし、勾配圧縮が分散トレーニングの性能に悪影響を及ぼす場合もあることが観察されている。
本稿では,通信効率のよい分散トレーニングのスケーラビリティを最適化する圧縮スケジューラであるMergeCompを提案する。
モデルアーキテクチャやシステムパラメータの知識なしに圧縮アルゴリズムのパフォーマンスを最適化するために、圧縮操作を自動的にスケジュールする。
我々はMergeCompを9つの一般的な圧縮アルゴリズムに適用した。
評価の結果,mergecompは圧縮アルゴリズムの性能を最大3.83倍向上させることができた。
高速ネットワーク上での分散トレーニングのスケーリング係数を最大99%達成することも可能だ。
関連論文リスト
- LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - CD-SGD: Distributed Stochastic Gradient Descent with Compression and
Delay Compensation [3.0786359925181315]
分散計算トレーニングにおいて、通信オーバーヘッドが重要な課題である。
勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。
しかし、勾配圧縮は追加コストをもたらし、次のトレーニングイテレーションを遅らせる。
論文 参考訳(メタデータ) (2021-06-21T01:15:12Z) - Compressed Communication for Distributed Training: Adaptive Methods and
System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:41:47Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Layer-Wise Data-Free CNN Compression [49.73757297936685]
本稿では,事前学習ネットワークのみを用いてレイヤワイズトレーニングデータを生成する方法を示す。
本稿では,量子化とプルーニングを用いた層間圧縮の結果について述べる。
論文 参考訳(メタデータ) (2020-11-18T03:00:05Z) - Optimal Gradient Compression for Distributed and Federated Learning [9.711326718689492]
分散学習における計算ノード間の通信は、通常避けられない負担である。
通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。
本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2020-10-07T07:58:59Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。