論文の概要: Compressing gradients by exploiting temporal correlation in momentum-SGD
- arxiv url: http://arxiv.org/abs/2108.07827v1
- Date: Tue, 17 Aug 2021 18:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 14:48:39.167345
- Title: Compressing gradients by exploiting temporal correlation in momentum-SGD
- Title(参考訳): 運動量SGDの時間相関を利用した圧縮勾配
- Authors: Tharindu B. Adikari, Stark C. Draper
- Abstract要約: エラーフィードバックのないシステムにおける時間相関を利用した圧縮手法を解析する。
ImageNetデータセットを用いた実験により,提案手法は通信速度を著しく低減することを示した。
我々は、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でSGDの収束を証明した。
- 参考スコア(独自算出の注目度): 17.995905582226463
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An increasing bottleneck in decentralized optimization is communication.
Bigger models and growing datasets mean that decentralization of computation is
important and that the amount of information exchanged is quickly growing.
While compression techniques have been introduced to cope with the latter, none
has considered leveraging the temporal correlations that exist in consecutive
vector updates. An important example is distributed momentum-SGD where temporal
correlation is enhanced by the low-pass-filtering effect of applying momentum.
In this paper we design and analyze compression methods that exploit temporal
correlation in systems both with and without error-feedback. Experiments with
the ImageNet dataset demonstrate that our proposed methods offer significant
reduction in the rate of communication at only a negligible increase in
computation complexity. We further analyze the convergence of SGD when
compression is applied with error-feedback. In the literature, convergence
guarantees are developed only for compressors that provide error-bounds
point-wise, i.e., for each input to the compressor. In contrast, many important
codes (e.g. rate-distortion codes) provide error-bounds only in expectation and
thus provide a more general guarantee. In this paper we prove the convergence
of SGD under an expected error assumption by establishing a bound for the
minimum gradient norm.
- Abstract(参考訳): 分散最適化におけるボトルネックの増加は、コミュニケーションである。
大きなモデルとデータセットの成長は、計算の分散化が重要であり、情報の交換量が急速に増加していることを意味する。
圧縮技術は後者に対処するために導入されているが、連続するベクトル更新に存在する時間的相関の活用は検討されていない。
重要な例は分散運動量-SGDであり、モーメントの低通過フィルタ効果によって時間相関が強化される。
本稿では,システムにおける時間的相関を利用した圧縮手法の設計と解析を行う。
ImageNetデータセットを用いた実験により,提案手法は計算複雑性の無視できる増加のみで通信速度を大幅に低下させることを示した。
さらに,圧縮に誤差フィードバックを適用した場合のSGDの収束を解析する。
文献では、コンバージェンス保証は、圧縮機への各入力に対して、ポイントバウンドを提供する圧縮機のためにのみ開発される。
対照的に、多くの重要なコード(例えば、)
rate-distortion codes) 予測のみにエラーバウンドを提供し、より一般的な保証を提供する。
本稿では、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でのSGDの収束を証明する。
関連論文リスト
- Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - EControl: Fast Distributed Optimization with Compression and Error
Control [8.624830915051021]
フィードバック信号の強度を制御できる新しいメカニズムであるEControlを提案する。
EControlは,本手法の素直な実装を緩和し,本研究の成果を裏付けるものである。
論文 参考訳(メタデータ) (2023-11-06T10:00:13Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Innovation Compression for Communication-efficient Distributed
Optimization with Linear Convergence [23.849813231750932]
本稿では,強い凸最適化問題を解決するために,通信効率のよい線形収束分散(COLD)アルゴリズムを提案する。
イノベーションベクターを圧縮することで、COLDは$delta$-contractedコンプレッサーのクラスに対して線形収束を達成できます。
数値実験は、異なる圧縮機の下で両方のアルゴリズムの利点を実証する。
論文 参考訳(メタデータ) (2021-05-14T08:15:18Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。