論文の概要: Shifted Compression Framework: Generalizations and Improvements
- arxiv url: http://arxiv.org/abs/2206.10452v1
- Date: Tue, 21 Jun 2022 15:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 21:44:01.160432
- Title: Shifted Compression Framework: Generalizations and Improvements
- Title(参考訳): Shifted Compression Framework: 一般化と改善
- Authors: Egor Shulgin and Peter Richt\'arik
- Abstract要約: コミュニケーションは、大規模な機械学習モデルの分散トレーニングにおける重要なボトルネックの1つだ。
勾配やモデルのような交換された情報のロッシー圧縮は、この問題を緩和する最も効果的な手段の1つである。
- 参考スコア(独自算出の注目度): 2.2147691173934967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication is one of the key bottlenecks in the distributed training of
large-scale machine learning models, and lossy compression of exchanged
information, such as stochastic gradients or models, is one of the most
effective instruments to alleviate this issue. Among the most studied
compression techniques is the class of unbiased compression operators with
variance bounded by a multiple of the square norm of the vector we wish to
compress. By design, this variance may remain high, and only diminishes if the
input vector approaches zero. However, unless the model being trained is
overparameterized, there is no a-priori reason for the vectors we wish to
compress to approach zero during the iterations of classical methods such as
distributed compressed {\sf SGD}, which has adverse effects on the convergence
speed. Due to this issue, several more elaborate and seemingly very different
algorithms have been proposed recently, with the goal of circumventing this
issue. These methods are based on the idea of compressing the {\em difference}
between the vector we would normally wish to compress and some auxiliary vector
which changes throughout the iterative process. In this work we take a step
back, and develop a unified framework for studying such methods, conceptually,
and theoretically. Our framework incorporates methods compressing both
gradients and models, using unbiased and biased compressors, and sheds light on
the construction of the auxiliary vectors. Furthermore, our general framework
can lead to the improvement of several existing algorithms, and can produce new
algorithms. Finally, we performed several numerical experiments which
illustrate and support our theoretical findings.
- Abstract(参考訳): コミュニケーションは、大規模機械学習モデルの分散トレーニングにおける重要なボトルネックの1つであり、確率的勾配やモデルのような交換された情報の損失の多い圧縮はこの問題を緩和する最も効果的な手段の1つである。
最も研究されている圧縮技法は、圧縮したいベクトルの正方形ノルムの倍数に有界な分散を持つ偏りのない圧縮作用素のクラスである。
設計上、この分散は高いままであり、入力ベクトルがゼロに近づくと減少する。
しかし、訓練中のモデルが過パラメータ化されない限り、我々が圧縮したいベクトルが、収束速度に悪影響を及ぼす分散圧縮 {\sf sgd} のような古典的手法の反復の間、ゼロに近づいたいというa-prioriの理由はない。
この問題により、この問題を回避することを目的として、近年、より精巧で一見全く異なるアルゴリズムが提案されている。
これらの手法は、通常圧縮したいベクトルと反復過程を通して変化する補助ベクトルとの間に {\em difference} を圧縮するという考え方に基づいている。
この研究は一歩後退し、そのような手法を概念的に、理論的に研究するための統一的な枠組みを開発する。
本フレームワークでは,非バイアス圧縮機とバイアス圧縮機を用いて勾配とモデルの両方を圧縮し,補助ベクトルの構成に光を照射する。
さらに,我々の汎用フレームワークは既存のアルゴリズムの改善につながり,新たなアルゴリズムを作成できる。
最後に, 理論的知見を実証し, 支持する数値実験を行った。
関連論文リスト
- Problem-dependent convergence bounds for randomized linear gradient compression [4.656302602746228]
分散最適化では、通信モデルの更新がパフォーマンスのボトルネックになる可能性がある。
最適化向上の手段として勾配圧縮法が提案されている。
我々は, 圧縮がスループットに与える影響を, ヘッセン目標のノルムの観点から検討する。
論文 参考訳(メタデータ) (2024-11-19T22:26:42Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Optimal Compression of Unit Norm Vectors in the High Distortion Regime [30.6205706348233]
本稿では,単位ノルムベクトルを最小ビット数に圧縮する手法について検討する。
本研究は, バイアス圧縮法と非バイアス圧縮法の両方を考察し, 最適圧縮率を決定する。
結果は新しいものと既知のものが混在しているが、完全性のためにこの論文にまとめられている。
論文 参考訳(メタデータ) (2023-07-16T04:23:57Z) - EF-BV: A Unified Theory of Error Feedback and Variance Reduction
Mechanisms for Biased and Unbiased Compression in Distributed Optimization [7.691755449724637]
分散最適化と学習では、異なるコンピュータユニット間の通信がボトルネックとなることが多い。
圧縮演算子には2つのクラスがあり、それを利用するアルゴリズムは別々である。
本稿では,特にDIANAとEF21を復元する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T10:44:23Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Distributed Methods with Absolute Compression and Error Compensation [1.52292571922932]
コミュニケーション圧縮はこの問題を緩和するための強力なアプローチである。
本稿では,任意のサンプリング戦略に対する絶対圧縮によるEC-SGDの解析を一般化する。
この設定では、以前知られていたものよりも私たちのレートが向上します。
論文 参考訳(メタデータ) (2022-03-04T15:41:14Z) - Optimal Gradient Compression for Distributed and Federated Learning [9.711326718689492]
分散学習における計算ノード間の通信は、通常避けられない負担である。
通信効率の訓練アルゴリズムの最近の進歩は、圧縮技術を用いてボトルネックを減らしている。
本稿では,圧縮ベクトルの符号化に必要なビット数と圧縮誤差との基本的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2020-10-07T07:58:59Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。