論文の概要: PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning
- arxiv url: http://arxiv.org/abs/2008.01425v2
- Date: Mon, 19 Oct 2020 15:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:48:21.310409
- Title: PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning
- Title(参考訳): PowerGossip:分散ディープラーニングにおける実践的低レベルコミュニケーション圧縮
- Authors: Thijs Vogels and Sai Praneeth Karimireddy and Martin Jaggi
- Abstract要約: 本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
- 参考スコア(独自算出の注目度): 62.440827696638664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lossy gradient compression has become a practical tool to overcome the
communication bottleneck in centrally coordinated distributed training of
machine learning models. However, algorithms for decentralized training with
compressed communication over arbitrary connected networks have been more
complicated, requiring additional memory and hyperparameters. We introduce a
simple algorithm that directly compresses the model differences between
neighboring workers using low-rank linear compressors applied on model
differences. Inspired by the PowerSGD algorithm for centralized deep learning,
this algorithm uses power iteration steps to maximize the information
transferred per bit. We prove that our method requires no additional
hyperparameters, converges faster than prior methods, and is asymptotically
independent of both the network and the compression. Out of the box, these
compressors perform on par with state-of-the-art tuned compression algorithms
in a series of deep learning benchmarks.
- Abstract(参考訳): 損失勾配圧縮は、機械学習モデルの集中的に調整された分散トレーニングにおける通信ボトルネックを克服するための実用的なツールとなっている。
しかしながら、任意の接続されたネットワーク上で圧縮通信を行う分散トレーニングのアルゴリズムはより複雑で、追加のメモリとハイパーパラメータを必要とする。
モデル差に適用した低ランク線形圧縮機を用いて,隣接労働者間のモデル差を直接圧縮する単純なアルゴリズムを提案する。
集中型ディープラーニングのためのpowersgdアルゴリズムにインスパイアされたこのアルゴリズムは、ビット当たりの情報転送を最大化するためにパワーイテレーションステップを使用する。
提案手法は,従来の手法よりも高速に収束し,ネットワークと圧縮とは漸近的に独立なハイパーパラメータを必要としないことを証明した。
最初からこれらの圧縮機は、一連のディープラーニングベンチマークで最先端のチューニング圧縮アルゴリズムと同等に動作する。
関連論文リスト
- Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - AdaGossip: Adaptive Consensus Step-size for Decentralized Deep Learning with Communication Compression [11.290935303784208]
AdaGossipは、隣り合うエージェント間の圧縮モデルの違いに基づいて、コンセンサスのサイズを適応的に調整する新しい手法である。
提案手法は,通信圧縮による分散学習における最先端の手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T00:43:45Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - Supervised Compression for Resource-constrained Edge Computing Systems [26.676557573171618]
フルスケールのディープニューラルネットワークは、エネルギーとストレージの面でリソース集約的すぎることが多い。
本稿では、知識蒸留とニューラルイメージ圧縮のアイデアを採用し、中間特徴表現をより効率的に圧縮する。
教師付きレート歪み性能を向上するとともに、エンドツーエンドのレイテンシも小さくする。
論文 参考訳(メタデータ) (2021-08-21T11:10:29Z) - On Effects of Compression with Hyperdimensional Computing in Distributed
Randomized Neural Networks [6.25118865553438]
ランダム化ニューラルネットワークと超次元計算に基づく分散分類モデルを提案する。
本研究では,従来の圧縮アルゴリズムや次元減少,量子化技術と比較し,より柔軟な圧縮手法を提案する。
論文 参考訳(メタデータ) (2021-06-17T22:02:40Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。