論文の概要: Momentum Provably Improves Error Feedback!
- arxiv url: http://arxiv.org/abs/2305.15155v2
- Date: Mon, 30 Oct 2023 16:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:29:56.830203
- Title: Momentum Provably Improves Error Feedback!
- Title(参考訳): Momentumがエラーフィードバックを改善!
- Authors: Ilyas Fatkhullin, Alexander Tyurin, Peter Richt\'arik
- Abstract要約: 未処理の場合、圧縮による誤差は指数的トレーニングの振る舞いを伝播させる。
EF21-SGDMは、従来のエラーフィードバックアルゴリズムの通信とサンプルの複雑さを改善している。
- 参考スコア(独自算出の注目度): 54.93799845077906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the high communication overhead when training machine learning models
in a distributed environment, modern algorithms invariably rely on lossy
communication compression. However, when untreated, the errors caused by
compression propagate, and can lead to severely unstable behavior, including
exponential divergence. Almost a decade ago, Seide et al [2014] proposed an
error feedback (EF) mechanism, which we refer to as EF14, as an immensely
effective heuristic for mitigating this issue. However, despite steady
algorithmic and theoretical advances in the EF field in the last decade, our
understanding is far from complete. In this work we address one of the most
pressing issues. In particular, in the canonical nonconvex setting, all known
variants of EF rely on very large batch sizes to converge, which can be
prohibitive in practice. We propose a surprisingly simple fix which removes
this issue both theoretically, and in practice: the application of Polyak's
momentum to the latest incarnation of EF due to Richt\'{a}rik et al. [2021]
known as EF21. Our algorithm, for which we coin the name EF21-SGDM, improves
the communication and sample complexities of previous error feedback algorithms
under standard smoothness and bounded variance assumptions, and does not
require any further strong assumptions such as bounded gradient dissimilarity.
Moreover, we propose a double momentum version of our method that improves the
complexities even further. Our proof seems to be novel even when compression is
removed from the method, and as such, our proof technique is of independent
interest in the study of nonconvex stochastic optimization enriched with
Polyak's momentum.
- Abstract(参考訳): 分散環境で機械学習モデルをトレーニングする際の通信オーバーヘッドが高いため、現代のアルゴリズムは損失のある通信圧縮に依存している。
しかし、未処理の場合、圧縮による誤差が伝播し、指数的発散を含む非常に不安定な挙動を引き起こす可能性がある。
約10年前、Seide氏らは、この問題を緩和するための非常に効果的なヒューリスティックとして、EF14と呼ばれるエラーフィードバック(EF)機構を提案した。
しかし、過去10年間のEF分野の着実にアルゴリズムと理論的進歩にもかかわらず、我々の理解は完璧には程遠い。
この作業では、最も差し迫った問題のひとつに対処します。
特に、標準的な非凸設定では、EFのすべての既知の変種は収束するために非常に大きなバッチサイズに依存しており、実際には禁止される。
我々は、この問題を理論的にも現実的にも取り除く驚くほど単純な修正を提案する: Richt\'{a}rik et al による EF の最新の化へのPolyak の運動量の適用。
【2021年】ef21として知られる。
EF21-SGDMと命名したこのアルゴリズムは,従来の誤りフィードバックアルゴリズムの標準滑らか性および有界分散仮定に基づく通信とサンプルの複雑さを改善し,有界勾配の相似性などのより強い仮定を必要としない。
さらに, 複雑度をさらに向上させるダブルモーメント方式を提案する。
本手法から圧縮を除去した場合でも,本手法は新規であり,ポリアックの運動量に富む非凸確率最適化の研究には独立した手法である。
関連論文リスト
- Error Feedback Reloaded: From Quadratic to Arithmetic Mean of Smoothness
Constants [4.2177789094825515]
EF21(Richtarik et al., 2021)と呼ばれる現代のエラーフィードバックの形式を研究する。
特に、EF21の理論的通信複雑性は、ある滑らか度パラメータの2次平均に依存するが、計算平均へのこの依存を改善する。
我々は、クローンなしで(幸いにも)実行できるEF21の新しい重み付きバージョンの発見を継続し、最終的に元のEF21法を改良した解析に循環する。
論文 参考訳(メタデータ) (2024-02-16T15:55:59Z) - Communication Compression for Byzantine Robust Learning: New Efficient
Algorithms and Improved Rates [9.965047642855074]
ビザンチンの堅牢性は、特定の分散最適化問題に対するアルゴリズムの重要な特徴である。
収束率を向上した新しいビザンチンロバスト圧縮法を提案する。
また,通信圧縮誤差フィードバックを用いたByzantine-robust法を開発した。
論文 参考訳(メタデータ) (2023-10-15T11:22:34Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - EF21 with Bells & Whistles: Practical Algorithmic Extensions of Modern
Error Feedback [11.899559337707112]
既存の誤差フィードバック理論(EF)は、非常に強い仮定に依存し、悲観的な収束率を提供する。
Richtarik et al. (2021) は、収縮近似によって誘導される圧縮機の構築に基づいて、新しいエラーフィードバック機構 EF21 を提案した。
本稿では、強収束理論によって支えられるEF21の6つの実践的拡張を提案する。
論文 参考訳(メタデータ) (2021-10-07T09:29:14Z) - EF21: A New, Simpler, Theoretically Better, and Practically Faster Error
Feedback [0.0]
エラーフィードバック(EF)は、教師付き機械学習の分散トレーニングの文脈において、非常に一般的な安定化メカニズムである。
我々はEF21と呼ばれる新しいEFメカニズムを提案し,解析する。
特に、EF21が滑らかな非収束問題に対する高速なO(1/T)$収束率を享受していることを証明する。
論文 参考訳(メタデータ) (2021-06-09T16:45:53Z) - Linear Convergent Decentralized Optimization with Compression [50.44269451541387]
圧縮を伴う既存の分散アルゴリズムは主にDGD型アルゴリズムの圧縮に焦点を当てている。
原始双対アルゴリズムによって動機付けられた本論文は、最初のアンダーラインLinunderlineEAr収束を提案する。
underline Decentralized with compression, LEAD。
論文 参考訳(メタデータ) (2020-07-01T04:35:00Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - Targeted free energy estimation via learned mappings [66.20146549150475]
自由エネルギー摂動 (FEP) は60年以上前にズワンツィヒによって自由エネルギー差を推定する方法として提案された。
FEPは、分布間の十分な重複の必要性という厳しい制限に悩まされている。
目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、オーバーラップを増やすために構成空間の高次元マッピングを使用する。
論文 参考訳(メタデータ) (2020-02-12T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。