論文の概要: EF21: A New, Simpler, Theoretically Better, and Practically Faster Error
Feedback
- arxiv url: http://arxiv.org/abs/2106.05203v1
- Date: Wed, 9 Jun 2021 16:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:16:08.084525
- Title: EF21: A New, Simpler, Theoretically Better, and Practically Faster Error
Feedback
- Title(参考訳): EF21: 新しい、よりシンプルで、理論的に良く、より高速なエラーフィードバック
- Authors: Peter Richt\'arik and Igor Sokolov and Ilyas Fatkhullin
- Abstract要約: エラーフィードバック(EF)は、教師付き機械学習の分散トレーニングの文脈において、非常に一般的な安定化メカニズムである。
我々はEF21と呼ばれる新しいEFメカニズムを提案し,解析する。
特に、EF21が滑らかな非収束問題に対する高速なO(1/T)$収束率を享受していることを証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Error feedback (EF), also known as error compensation, is an immensely
popular convergence stabilization mechanism in the context of distributed
training of supervised machine learning models enhanced by the use of
contractive communication compression mechanisms, such as Top-$k$. First
proposed by Seide et al (2014) as a heuristic, EF resisted any theoretical
understanding until recently [Stich et al., 2018, Alistarh et al., 2018].
However, all existing analyses either i) apply to the single node setting only,
ii) rely on very strong and often unreasonable assumptions, such global
boundedness of the gradients, or iterate-dependent assumptions that cannot be
checked a-priori and may not hold in practice, or iii) circumvent these issues
via the introduction of additional unbiased compressors, which increase the
communication cost. In this work we fix all these deficiencies by proposing and
analyzing a new EF mechanism, which we call EF21, which consistently and
substantially outperforms EF in practice. Our theoretical analysis relies on
standard assumptions only, works in the distributed heterogeneous data setting,
and leads to better and more meaningful rates. In particular, we prove that
EF21 enjoys a fast $O(1/T)$ convergence rate for smooth nonconvex problems,
beating the previous bound of $O(1/T^{2/3})$, which was shown a bounded
gradients assumption. We further improve this to a fast linear rate for PL
functions, which is the first linear convergence result for an EF-type method
not relying on unbiased compressors. Since EF has a large number of
applications where it reigns supreme, we believe that our 2021 variant, EF21,
can a large impact on the practice of communication efficient distributed
learning.
- Abstract(参考訳): エラーフィードバック(EF、英: Error feedback)は、Top-$k$のような契約型通信圧縮機構を用いて強化された教師あり機械学習モデルの分散トレーニングにおいて、非常に一般的な収束安定化機構である。
seide et al (2014) によってヒューリスティックとして初めて提案されたefは、最近まで理論的な理解に抵抗した [stich et al., 2018, alistarh et al., 2018]。
しかし、i) 単一ノード設定のみに適用する、i) 勾配の大域的有界性のような非常に強く、しばしば不合理な仮定に依存する、または、a-プリオリをチェックできない反復的依存的な仮定、またはiii) 追加の非バイアス圧縮器を導入して通信コストを増大させる、これらの問題を回避できる。
この作業では、EF21と呼ばれる新しいEFメカニズムを提案し、分析することで、これらの欠陥をすべて修正します。
我々の理論分析は、標準仮定のみに依存し、分散異種データ設定で機能し、より良い、より有意義な速度をもたらす。
特に、ef21 が滑らかな非凸問題に対して高速な $o(1/t)$ 収束率を享受していることが証明され、境界勾配を仮定した $o(1/t^{2/3})$ の以前の限界を上回った。
我々はさらに,非バイアス圧縮機に依存しないef型手法における最初の線形収束結果であるpl関数の高速線形速度に改良する。
EFにはスプリームが支配する多くのアプリケーションがあるので、私たちの2021の変種であるEF21は、コミュニケーション効率のよい分散学習の実践に大きな影響を与えると信じています。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Error Feedback Reloaded: From Quadratic to Arithmetic Mean of Smoothness
Constants [4.2177789094825515]
EF21(Richtarik et al., 2021)と呼ばれる現代のエラーフィードバックの形式を研究する。
特に、EF21の理論的通信複雑性は、ある滑らか度パラメータの2次平均に依存するが、計算平均へのこの依存を改善する。
我々は、クローンなしで(幸いにも)実行できるEF21の新しい重み付きバージョンの発見を継続し、最終的に元のEF21法を改良した解析に循環する。
論文 参考訳(メタデータ) (2024-02-16T15:55:59Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Momentum Provably Improves Error Feedback! [54.93799845077906]
未処理の場合、圧縮による誤差は指数的トレーニングの振る舞いを伝播させる。
EF21-SGDMは、従来のエラーフィードバックアルゴリズムの通信とサンプルの複雑さを改善している。
論文 参考訳(メタデータ) (2023-05-24T13:52:02Z) - Analysis of Error Feedback in Federated Non-Convex Optimization with
Biased Compression [37.6593006747285]
学習サーバ(FL)システムでは、クライアントと中心的ボトルネックの間の通信コストが高くなる。
本稿では,バイアス圧縮の欠点を解消する手法を提案する。
部分的な参加の下では、いわゆる「ストールエラー蓄積」効果により、余分なスローダウン係数が発達する。
論文 参考訳(メタデータ) (2022-11-25T18:49:53Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - EF21 with Bells & Whistles: Practical Algorithmic Extensions of Modern
Error Feedback [11.899559337707112]
既存の誤差フィードバック理論(EF)は、非常に強い仮定に依存し、悲観的な収束率を提供する。
Richtarik et al. (2021) は、収縮近似によって誘導される圧縮機の構築に基づいて、新しいエラーフィードバック機構 EF21 を提案した。
本稿では、強収束理論によって支えられるEF21の6つの実践的拡張を提案する。
論文 参考訳(メタデータ) (2021-10-07T09:29:14Z) - A Better Alternative to Error Feedback for Communication-Efficient
Distributed Learning [0.0]
私たちのアプローチは、メモリ要件の削減、複雑性の保証の改善、仮定の削減など、EFよりも大幅に改善されていることが示されています。
さらに、ノード上の任意の分布に従って、部分的な参加を伴うフェデレーション学習に結果を拡張し、そのメリットを実証する。
論文 参考訳(メタデータ) (2020-06-19T11:24:41Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。