論文の概要: Downlink Compression Improves TopK Sparsification
- arxiv url: http://arxiv.org/abs/2209.15203v1
- Date: Fri, 30 Sep 2022 03:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:46:54.435822
- Title: Downlink Compression Improves TopK Sparsification
- Title(参考訳): Downlink CompressionがTopKスパシフィケーションを改善
- Authors: William Zou, Hans De Sterck, Jun Liu
- Abstract要約: 分散通信における最大のボトルネックの1つは、異なるノード間で通信することである。
TopKスペーサは、他のノードよりも大きなK勾配よりも前にスペーサを減らします。
ワーカ・ツー・サーバ(アップリンク)とサーバ・ツー・ワーカ・ダウンリンクの両方でのTopK圧縮は、TopKスペーサのパフォーマンスを改善する可能性がある。
我々は、一方向トップK SGDに対して、トップKでトレーニングされたモデルと、一方向トップK SGDでトレーニングされたモデルが機能することを示す。
- 参考スコア(独自算出の注目度): 5.3797696753454565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large neural networks is time consuming. To speed up the process,
distributed training is often used. One of the largest bottlenecks in
distributed training is communicating gradients across different nodes.
Different gradient compression techniques have been proposed to alleviate the
communication bottleneck, including topK gradient sparsification, which
truncates the gradient to the largest K components before sending it to other
nodes. While some authors have investigated topK gradient sparsification in the
parameter-server framework by applying topK compression in both the
worker-to-server (uplink) and server-to-worker (downlink) direction, the
currently accepted belief says that adding extra compression degrades the
convergence of the model. We demonstrate, on the contrary, that adding downlink
compression can potentially improve the performance of topK sparsification: not
only does it reduce the amount of communication per step, but also,
counter-intuitively, can improve the upper bound in the convergence analysis.
To show this, we revisit non-convex convergence analysis of topK stochastic
gradient descent (SGD) and extend it from the unidirectional to the
bidirectional setting. We also remove a restriction of the previous analysis
that requires unrealistically large values of K. We experimentally evaluate
bidirectional topK SGD against unidirectional topK SGD and show that models
trained with bidirectional topK SGD will perform as well as models trained with
unidirectional topK SGD while yielding significant communication benefits for
large numbers of workers.
- Abstract(参考訳): 大きなニューラルネットワークのトレーニングには時間がかかる。
プロセスのスピードアップには、分散トレーニングが頻繁に使用される。
分散トレーニングにおける最大のボトルネックのひとつは、異なるノード間の通信勾配だ。
通信ボトルネックを軽減するために異なる勾配圧縮手法が提案されている。例えば、他のノードに送信する前に最大のKコンポーネントへの勾配を乱すトポK勾配スペーシフィケーションである。
幾人かの著者が、ワーカー間(アップリンク)とサーバ間(ダウンリンク)の両方の方向にtopk圧縮を適用することで、パラメータ-サーバフレームワークにおけるtopk勾配のスパーシフィケーションを調査しているが、現在受け入れられている考え方では、追加の圧縮を加えるとモデルの収束が低下する。
それとは対照的に、ダウンリンク圧縮を加えることで、topkスパーシフィケーションのパフォーマンスが向上する可能性があることを実証する: ステップ毎の通信量を減少させるだけでなく、直観上、収束解析の上限を改善できる。
これを示すために,topk確率勾配降下(sgd)の非凸収束解析を再検討し,一方向から二方向へ拡張する。
我々は、一方向トップK SGDに対して双方向トップK SGDを実験的に評価し、双方向トップK SGDで訓練されたモデルだけでなく、一方向トップK SGDで訓練されたモデルも、多数の作業者に対して重要なコミュニケーション効果を得られることを示す。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Convergence and Privacy of Decentralized Nonconvex Optimization with
Gradient Clipping and Communication Compression [31.161598424963934]
本稿では、圧縮を伴う分散非通信最適化における一般的な戦略の役割を理解するための第一歩を踏み出す。
ミニバッチ摂動前後の2種類の勾配クリッピングを提案する。
論文 参考訳(メタデータ) (2023-05-17T02:13:18Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Compressing gradients by exploiting temporal correlation in momentum-SGD [17.995905582226463]
エラーフィードバックのないシステムにおける時間相関を利用した圧縮手法を解析する。
ImageNetデータセットを用いた実験により,提案手法は通信速度を著しく低減することを示した。
我々は、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でSGDの収束を証明した。
論文 参考訳(メタデータ) (2021-08-17T18:04:06Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。