論文の概要: Optimal Gradient Compression for Distributed and Federated Learning
- arxiv url: http://arxiv.org/abs/2010.03246v1
- Date: Wed, 7 Oct 2020 07:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:15:00.547851
- Title: Optimal Gradient Compression for Distributed and Federated Learning
- Title(参考訳): 分散・フェデレーション学習のための最適勾配圧縮
- Authors: Alyazeed Albasyoni, Mher Safaryan, Laurent Condat, Peter Richt\'arik
- Abstract要約: 分散学習における計算ノード間の通信は、通常避けられない負担である。
通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。
本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
- 参考スコア(独自算出の注目度): 9.711326718689492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communicating information, like gradient vectors, between computing nodes in
distributed and federated learning is typically an unavoidable burden,
resulting in scalability issues. Indeed, communication might be slow and
costly. Recent advances in communication-efficient training algorithms have
reduced this bottleneck by using compression techniques, in the form of
sparsification, quantization, or low-rank approximation. Since compression is a
lossy, or inexact, process, the iteration complexity is typically worsened; but
the total communication complexity can improve significantly, possibly leading
to large computation time savings. In this paper, we investigate the
fundamental trade-off between the number of bits needed to encode compressed
vectors and the compression error. We perform both worst-case and average-case
analysis, providing tight lower bounds. In the worst-case analysis, we
introduce an efficient compression operator, Sparse Dithering, which is very
close to the lower bound. In the average-case analysis, we design a simple
compression operator, Spherical Compression, which naturally achieves the lower
bound. Thus, our new compression schemes significantly outperform the state of
the art. We conduct numerical experiments to illustrate this improvement.
- Abstract(参考訳): 分散学習とフェデレート学習の計算ノード間の勾配ベクトルのような情報を通信することは、通常避けられない負担であり、スケーラビリティの問題を引き起こす。
実際、コミュニケーションは遅くてコストがかかるかもしれません。
通信効率のトレーニングアルゴリズムの最近の進歩は、スペーシフィケーション、量子化、低ランク近似という形で圧縮技術を用いて、このボトルネックを減らした。
圧縮は損失、あるいは不正確であるため、イテレーションの複雑さは一般的に悪化するが、通信の複雑さは大幅に改善され、計算時間の節約につながる可能性がある。
本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
最悪ケースと平均ケースの両方の分析を行い、狭い下限を提供する。
最悪ケース解析では,下界に非常に近い効率的な圧縮演算子,スパースディザリングを導入する。
平均ケース解析では,下界を自然に達成する単純な圧縮演算子 Spherical Compression を設計する。
このように、我々の新しい圧縮スキームは、芸術の状態を著しく上回ります。
この改善を示す数値実験を行う。
関連論文リスト
- Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Shifted Compression Framework: Generalizations and Improvements [2.2147691173934967]
コミュニケーションは、大規模な機械学習モデルの分散トレーニングにおける重要なボトルネックの1つだ。
勾配やモデルのような交換された情報のロッシー圧縮は、この問題を緩和する最も効果的な手段の1つである。
論文 参考訳(メタデータ) (2022-06-21T15:00:04Z) - Lower Bounds and Nearly Optimal Algorithms in Distributed Learning with
Communication Compression [33.217552987061474]
通信圧縮は、通信を減らす最も効果的な方法の1つである。
分散最適化と学習の最近の進歩は、通信圧縮が通信を減らす最も効果的な方法の1つであることを示している。
論文 参考訳(メタデータ) (2022-06-08T03:36:34Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - CD-SGD: Distributed Stochastic Gradient Descent with Compression and
Delay Compensation [3.0786359925181315]
分散計算トレーニングにおいて、通信オーバーヘッドが重要な課題である。
勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。
しかし、勾配圧縮は追加コストをもたらし、次のトレーニングイテレーションを遅らせる。
論文 参考訳(メタデータ) (2021-06-21T01:15:12Z) - MergeComp: A Compression Scheduler for Scalable Communication-Efficient
Distributed Training [8.150621147942449]
MergeCompは、通信効率のよい分散トレーニングのスケーラビリティを最適化する圧縮スケジューラである。
圧縮アルゴリズムの性能を3.83倍に向上するが、精度は低下しない。
高速ネットワーク上での分散トレーニングのスケーリング係数を最大99%達成することも可能だ。
論文 参考訳(メタデータ) (2021-03-28T18:26:55Z) - A Linearly Convergent Algorithm for Decentralized Optimization: Sending
Less Bits for Free! [72.31332210635524]
分散最適化手法は、中央コーディネータを使わずに、機械学習モデルのデバイス上でのトレーニングを可能にする。
ランダム化圧縮演算子を適用し,通信ボトルネックに対処する新しいランダム化一階法を提案する。
本手法は,ベースラインに比べて通信数の増加を伴わずに問題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-11-03T13:35:53Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - Uncertainty Principle for Communication Compression in Distributed and
Federated Learning and the Search for an Optimal Compressor [5.09755285351264]
我々は,ベクトルのカシン表現にインスパイアされた非バイアス圧縮法を考察し,これをエムカシン圧縮(KC)と呼ぶ。
KC は、各ベクトルエントリごとに数ビットしか通信する必要のない状態であっても、明示的な公式を導出するエム次元独立分散境界を享受する。
論文 参考訳(メタデータ) (2020-02-20T17:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。