Fugu-MT 論文翻訳(概要): CD-SGD: Distributed Stochastic Gradient Descent with Compression and Delay Compensation

論文の概要: CD-SGD: Distributed Stochastic Gradient Descent with Compression and Delay Compensation

arxiv url: http://arxiv.org/abs/2106.10796v1
Date: Mon, 21 Jun 2021 01:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-23 05:13:34.195894
Title: CD-SGD: Distributed Stochastic Gradient Descent with Compression and Delay Compensation
Title（参考訳）: cd-sgd:圧縮と遅延補償を伴う分布確率勾配降下
Authors: Enda Yu, Dezun Dong, Yemao Xu, Shuo Ouyang, Xiangke Liao
Abstract要約: 分散計算トレーニングにおいて、通信オーバーヘッドが重要な課題である。勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。しかし、勾配圧縮は追加コストをもたらし、次のトレーニングイテレーションを遅らせる。
参考スコア（独自算出の注目度）: 3.0786359925181315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Communication overhead is the key challenge for distributed training. Gradient compression is a widely used approach to reduce communication traffic. When combining with parallel communication mechanism method like pipeline, gradient compression technique can greatly alleviate the impact of communication overhead. However, there exists two problems of gradient compression technique to be solved. Firstly, gradient compression brings in extra computation cost, which will delay the next training iteration. Secondly, gradient compression usually leads to the decrease of convergence accuracy.
Abstract（参考訳）: コミュニケーションのオーバーヘッドが分散トレーニングの鍵となる課題です。グラディエント圧縮は、通信トラフィックを減らすために広く使われている手法である。パイプラインのような並列通信機構手法と組み合わせると、勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。しかし, 勾配圧縮技術には2つの問題が存在する。まず、勾配圧縮により計算コストが増大し、次のトレーニングイテレーションが遅れる。第二に、勾配圧縮は通常収束精度の低下につながる。

関連論文リスト

Beyond Throughput and Compression Ratios: Towards High End-to-end Utility of Gradient Compression [13.255861297820326]
勾配圧縮は、通信された勾配データ量を減らすことができる。実際には、勾配圧縮スキームはトレーニングプロセスの加速を達成せず、精度を保っている。従来の勾配圧縮システムにおける共通問題と評価手法について述べる。
論文参考訳（メタデータ） (2024-07-01T15:32:28Z)
Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文参考訳（メタデータ） (2024-05-17T21:17:27Z)
Communication-Efficient Distributed Learning with Local Immediate Error Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。 LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文参考訳（メタデータ） (2024-02-19T05:59:09Z)
Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文参考訳（メタデータ） (2021-09-26T05:16:12Z)
Compressed Communication for Distributed Training: Adaptive Methods and System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文参考訳（メタデータ） (2021-05-17T13:41:47Z)
An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。 SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文参考訳（メタデータ） (2021-01-26T13:06:00Z)
A Linearly Convergent Algorithm for Decentralized Optimization: Sending Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文参考訳（メタデータ） (2020-11-03T13:35:53Z)
Optimal Gradient Compression for Distributed and Federated Learning [9.711326718689492]
分散学習における計算ノード間の通信は、通常避けられない負担である。通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
論文参考訳（メタデータ） (2020-10-07T07:58:59Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
PowerGossip: Practical Low-Rank Communication Compression in Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文参考訳（メタデータ） (2020-08-04T09:14:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。