論文の概要: PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning
- arxiv url: http://arxiv.org/abs/2008.01425v2
- Date: Mon, 19 Oct 2020 15:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:48:21.310409
- Title: PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning
- Title(参考訳): PowerGossip:分散ディープラーニングにおける実践的低レベルコミュニケーション圧縮
- Authors: Thijs Vogels and Sai Praneeth Karimireddy and Martin Jaggi
- Abstract要約: 本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
- 参考スコア(独自算出の注目度): 62.440827696638664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lossy gradient compression has become a practical tool to overcome the
communication bottleneck in centrally coordinated distributed training of
machine learning models. However, algorithms for decentralized training with
compressed communication over arbitrary connected networks have been more
complicated, requiring additional memory and hyperparameters. We introduce a
simple algorithm that directly compresses the model differences between
neighboring workers using low-rank linear compressors applied on model
differences. Inspired by the PowerSGD algorithm for centralized deep learning,
this algorithm uses power iteration steps to maximize the information
transferred per bit. We prove that our method requires no additional
hyperparameters, converges faster than prior methods, and is asymptotically
independent of both the network and the compression. Out of the box, these
compressors perform on par with state-of-the-art tuned compression algorithms
in a series of deep learning benchmarks.
- Abstract(参考訳): 損失勾配圧縮は、機械学習モデルの集中的に調整された分散トレーニングにおける通信ボトルネックを克服するための実用的なツールとなっている。
しかしながら、任意の接続されたネットワーク上で圧縮通信を行う分散トレーニングのアルゴリズムはより複雑で、追加のメモリとハイパーパラメータを必要とする。
モデル差に適用した低ランク線形圧縮機を用いて,隣接労働者間のモデル差を直接圧縮する単純なアルゴリズムを提案する。
集中型ディープラーニングのためのpowersgdアルゴリズムにインスパイアされたこのアルゴリズムは、ビット当たりの情報転送を最大化するためにパワーイテレーションステップを使用する。
提案手法は,従来の手法よりも高速に収束し,ネットワークと圧縮とは漸近的に独立なハイパーパラメータを必要としないことを証明した。
最初からこれらの圧縮機は、一連のディープラーニングベンチマークで最先端のチューニング圧縮アルゴリズムと同等に動作する。
関連論文リスト
- Supervised Compression for Resource-constrained Edge Computing Systems [26.676557573171618]
フルスケールのディープニューラルネットワークは、エネルギーとストレージの面でリソース集約的すぎることが多い。
本稿では、知識蒸留とニューラルイメージ圧縮のアイデアを採用し、中間特徴表現をより効率的に圧縮する。
教師付きレート歪み性能を向上するとともに、エンドツーエンドのレイテンシも小さくする。
論文 参考訳(メタデータ) (2021-08-21T11:10:29Z) - Decentralized Composite Optimization with Compression [36.75785129001134]
非滑らかなコンポーネントを用いた分散合成最適化問題について検討する。
圧縮を伴う収束アンダーライン分散アルゴリズム Prox-LEAD を提案する。
我々の定理は、Prox-LEADが任意の圧縮精度で動作することを示している。
論文 参考訳(メタデータ) (2021-08-10T04:54:52Z) - On Effects of Compression with Hyperdimensional Computing in Distributed
Randomized Neural Networks [6.25118865553438]
ランダム化ニューラルネットワークと超次元計算に基づく分散分類モデルを提案する。
本研究では,従来の圧縮アルゴリズムや次元減少,量子化技術と比較し,より柔軟な圧縮手法を提案する。
論文 参考訳(メタデータ) (2021-06-17T22:02:40Z) - Preserved central model for faster bidirectional compression in
distributed settings [12.323007278097249]
我々は,分散学習問題における通信制約に中央サーバで対処する新しい手法を開発した。
本研究では,双方向圧縮を行い,(ローカルワーカーから中央サーバへの)アップリンクのみを用いたアルゴリズムと同じ収束率を達成する新しいアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2021-02-24T19:48:20Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。