論文の概要: Revisiting LocalSGD and SCAFFOLD: Improved Rates and Missing Analysis
- arxiv url: http://arxiv.org/abs/2501.04443v3
- Date: Mon, 24 Feb 2025 08:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:39:20.134710
- Title: Revisiting LocalSGD and SCAFFOLD: Improved Rates and Missing Analysis
- Title(参考訳): ローカルSGDとSCAFFOLDの再検討:改善率と欠落分析
- Authors: Ruichen Luo, Sebastian U Stich, Samuel Horváth, Martin Takáč,
- Abstract要約: LocalSGD と SCAFFOLD は分散最適化において広く使われている手法である。
そこで我々は,LocalSGD と SCAFFOLD の収束特性を,既存あるいはより弱い条件下で再検討する。
- 参考スコア(独自算出の注目度): 22.890164240409597
- License:
- Abstract: LocalSGD and SCAFFOLD are widely used methods in distributed stochastic optimization, with numerous applications in machine learning, large-scale data processing, and federated learning. However, rigorously establishing their theoretical advantages over simpler methods, such as minibatch SGD (MbSGD), has proven challenging, as existing analyses often rely on strong assumptions, unrealistic premises, or overly restrictive scenarios. In this work, we revisit the convergence properties of LocalSGD and SCAFFOLD under a variety of existing or weaker conditions, including gradient similarity, Hessian similarity, weak convexity, and Lipschitz continuity of the Hessian. Our analysis shows that (i) LocalSGD achieves faster convergence compared to MbSGD for weakly convex functions without requiring stronger gradient similarity assumptions; (ii) LocalSGD benefits significantly from higher-order similarity and smoothness; and (iii) SCAFFOLD demonstrates faster convergence than MbSGD for a broader class of non-quadratic functions. These theoretical insights provide a clearer understanding of the conditions under which LocalSGD and SCAFFOLD outperform MbSGD.
- Abstract(参考訳): LocalSGD と SCAFFOLD は分散確率最適化において広く使われている手法であり、機械学習、大規模データ処理、フェデレーション学習に多くの応用がある。
しかし、MbSGD (Minibatch SGD) のような単純な手法に対する理論上の優位性は、既存の分析がしばしば強い仮定や非現実的前提、過度に制限されたシナリオに依存しているため、厳密に確立されている。
本研究では,局所SGD と SCAFFOLD の収束特性を,勾配類似性,ヘッセン類似性,弱凸性,ヘッセン連続性など,様々な既存あるいは弱い条件下で再検討する。
私たちの分析は
(i)局所SGDは、より強い勾配類似性仮定を必要とせず、弱凸関数に対するMbSGDよりも早く収束する。
(二)局部SGDは、高次類似性及び滑らか性から著しく恩恵を受ける。
3) SCAFFOLD はより広範な非二次函数のクラスに対して MbSGD よりも高速な収束を示す。
これらの理論的な洞察は、ローカルSGDとSCAFFOLDがMbSGDより優れている条件を明確に理解する。
関連論文リスト
- Stochastic Gradient Descent Revisited [0.0]
勾配降下(SGD)は、機械学習における非勾配収束問題のアルゴリズムである。
本稿では、全範囲収束理論を示し、速度と複雑さを提供する。
論文 参考訳(メタデータ) (2024-12-08T21:15:08Z) - The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - SGD for Structured Nonconvex Functions: Learning Rates, Minibatching and
Interpolation [17.199023009789308]
予想されるSGD(SGD)の仮定は、非アーティザン関数に対して日常的に使われている。
本稿では,スムーズな非線形設定への収束のパラダイムを示す。
また,異なるステップサイズ条件の理論的保証も提供する。
論文 参考訳(メタデータ) (2020-06-18T07:05:56Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Training Deep Energy-Based Models with f-Divergence Minimization [113.97274898282343]
深部エネルギーベースモデル(EBM)は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。
所望のf偏差を用いてEMMを訓練するための、f-EBMと呼ばれる一般的な変分フレームワークを提案する。
実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。
論文 参考訳(メタデータ) (2020-03-06T23:11:13Z) - Elastic Consistency: A General Consistency Model for Distributed
Stochastic Gradient Descent [28.006781039853575]
近年の機械学習の進歩を支える重要な要素は、大規模な分散メモリ環境で機械学習モデルをトレーニングする能力である。
本稿では,大規模機械学習モデルの学習に使用される一般収束手法を提案する。
我々のフレームワークは弾性弾性境界と呼ばれ、様々な分散SGD法に対する収束境界を導出することができる。
論文 参考訳(メタデータ) (2020-01-16T16:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。