論文の概要: Linearly Converging Error Compensated SGD
- arxiv url: http://arxiv.org/abs/2010.12292v1
- Date: Fri, 23 Oct 2020 10:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:03:34.011399
- Title: Linearly Converging Error Compensated SGD
- Title(参考訳): 線形収束誤差補償SGD
- Authors: Eduard Gorbunov, Dmitry Kovalev, Dmitry Makarenko, Peter Richt\'arik
- Abstract要約: 本稿では、任意の圧縮と遅延更新を伴う分散SGDの変種を統一的に解析する。
我々のフレームワークは、量子化されたSGD、ErrorCompensated SGD、SGDの様々な変種をカバーするのに十分である。
我々は、分散還元や任意のサンプリングと誤りフィードバックと量子化を組み合わせたSGDの新しい変種を開発する。
- 参考スコア(独自算出の注目度): 11.436753102510647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a unified analysis of variants of distributed SGD
with arbitrary compressions and delayed updates. Our framework is general
enough to cover different variants of quantized SGD, Error-Compensated SGD
(EC-SGD) and SGD with delayed updates (D-SGD). Via a single theorem, we derive
the complexity results for all the methods that fit our framework. For the
existing methods, this theorem gives the best-known complexity results.
Moreover, using our general scheme, we develop new variants of SGD that combine
variance reduction or arbitrary sampling with error feedback and quantization
and derive the convergence rates for these methods beating the state-of-the-art
results. In order to illustrate the strength of our framework, we develop 16
new methods that fit this. In particular, we propose the first method called
EC-SGD-DIANA that is based on error-feedback for biased compression operator
and quantization of gradient differences and prove the convergence guarantees
showing that EC-SGD-DIANA converges to the exact optimum asymptotically in
expectation with constant learning rate for both convex and strongly convex
objectives when workers compute full gradients of their loss functions.
Moreover, for the case when the loss function of the worker has the form of
finite sum, we modified the method and got a new one called EC-LSVRG-DIANA
which is the first distributed stochastic method with error feedback and
variance reduction that converges to the exact optimum asymptotically in
expectation with a constant learning rate.
- Abstract(参考訳): 本稿では,任意の圧縮と遅延更新による分散SGDの変種を統一的に解析する。
我々のフレームワークは、量子化されたSGD、エラー補償SGD(EC-SGD)、遅延更新(D-SGD)の様々な変種をカバーするのに十分である。
一つの定理によって、フレームワークに適合するすべてのメソッドの複雑さの結果を導出します。
既存の方法では、この定理は最もよく知られた複雑性の結果を与える。
さらに,本手法を用いて,誤差の低減や任意のサンプリングを誤差フィードバックと量子化と組み合わせたSGDの新たな変種を開発し,これらの手法の収束率を導出する。
フレームワークの強みを説明するために、我々はこれに適合する16の新しい方法を開発した。
特に、偏りのある圧縮演算子に対する誤差フィードバックと勾配差の量子化に基づくEC-SGD-DIANAと呼ばれる最初の手法を提案し、EC-SGD-DIANAは、労働者が損失関数の完全な勾配を計算する際に、凸と強凸の両方の目標に対して一定の学習率で漸近的に正確な最適値に収束することを示す収束保証を証明した。
さらに, 労働者の損失関数が有限和である場合, 本手法を修正し, 一定の学習率で予測された正確な最適漸近値に収束する誤差フィードバックと分散縮小を伴う最初の分散確率的手法である EC-LSVRG-DIANA を新たに得た。
関連論文リスト
- Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [6.144680854063938]
本研究では,その収束特性を明らかにするために,ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示した。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Stochastic Gradient Descent-Ascent: Unified Theory and New Efficient
Methods [73.35353358543507]
SGDA(Gradient Descent-Ascent)は、min-max最適化と変分不等式問題(VIP)を解くための最も顕著なアルゴリズムの1つである。
本稿では,多種多様な降下指数法を網羅した統合収束解析を提案する。
本研究では,新しい分散化手法 (L-SVRGDA) や,新しい分散圧縮方式 (QSGDA, DIANA-SGDA, VR-DIANA-SGDA) ,座標ランダム化方式 (SEGA-SGDA) など,SGDAの新しい変種を開発した。
論文 参考訳(メタデータ) (2022-02-15T09:17:39Z) - On the Convergence of mSGD and AdaGrad for Stochastic Optimization [0.696125353550498]
凸降下(SGD)は、過去10年間に機械学習に大きく開発され、広く応用されてきた。
モーメントベースのSGD(mSGD)や適応的勾配最適化(AdaGrad)など、多くの競合や応用においてSGDよりも優れている修正SGD型アルゴリズムもある。
我々は,機械学習における任意の滑らかな(不可能かもしれない)損失関数に対するmSGDとAdaGradの収束解析に着目する。
論文 参考訳(メタデータ) (2022-01-26T22:02:21Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Unified Analysis of Stochastic Gradient Methods for Composite Convex and
Smooth Optimization [15.82816385434718]
本稿では、滑らかで凸な損失と凸正則化器を最小化するための勾配アルゴリズムの収束解析のための統一定理を提案する。
我々は、Gorbunov, Hanzely & Richt'arik (2020) の統一解析を拡張し、損失関数が強く凸であるという要求を下げる。
我々の統一解析は、近位SGD、分散還元法、量子化、およびいくつかの座標降下型法などの既存のアルゴリズムのホストに適用できる。
論文 参考訳(メタデータ) (2020-06-20T13:40:27Z) - A Unified Analysis of Stochastic Gradient Methods for Nonconvex
Federated Optimization [16.714109768541785]
非非状態におけるSGD不変量を満たすすべての方法について単一の解析を行う。
また、PL条件下での非非状態におけるより高速な線形収束を得るための統一解析も提供する。
論文 参考訳(メタデータ) (2020-06-12T08:58:03Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。