論文の概要: The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication
- arxiv url: http://arxiv.org/abs/2405.11667v1
- Date: Sun, 19 May 2024 20:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 14:53:04.976743
- Title: The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication
- Title(参考訳): 間欠的コミュニケーションを用いた分散異種学習におけるローカルSGDの限界と可能性
- Authors: Kumar Kshitij Patel, Margalit Glasgow, Ali Zindari, Lingxiao Wang, Sebastian U. Stich, Ziheng Cheng, Nirmit Joshi, Nathan Srebro,
- Abstract要約: ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
- 参考スコア(独自算出の注目度): 37.210933391984014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local SGD is a popular optimization method in distributed learning, often outperforming other algorithms in practice, including mini-batch SGD. Despite this success, theoretically proving the dominance of local SGD in settings with reasonable data heterogeneity has been difficult, creating a significant gap between theory and practice. In this paper, we provide new lower bounds for local SGD under existing first-order data heterogeneity assumptions, showing that these assumptions are insufficient to prove the effectiveness of local update steps. Furthermore, under these same assumptions, we demonstrate the min-max optimality of accelerated mini-batch SGD, which fully resolves our understanding of distributed optimization for several problem classes. Our results emphasize the need for better models of data heterogeneity to understand the effectiveness of local SGD in practice. Towards this end, we consider higher-order smoothness and heterogeneity assumptions, providing new upper bounds that imply the dominance of local SGD over mini-batch SGD when data heterogeneity is low.
- Abstract(参考訳): ローカルSGDは分散学習において一般的な最適化手法であり、ミニバッチSGDなど他のアルゴリズムよりも優れていることが多い。
この成功にもかかわらず、理論上は妥当なデータ不均一性を持つ設定における局所的なSGDの優位性を証明することは困難であり、理論と実践の間に大きなギャップが生じた。
本稿では、既存の一階データ不均一性仮定に基づいて、局所的なSGDの新たな下位境界を提供し、これらの仮定が局所的な更新手順の有効性を証明するには不十分であることを示す。
さらに、これらの仮定の下で、高速化されたミニバッチSGDの min-max 最適性を実証し、いくつかの問題クラスに対する分散最適化の理解を完全に解決する。
本研究は,実運用における局所的なSGDの有効性を理解するために,データヘテロジニティのモデルの改善の必要性を強調した。
この目的のために、データ不均一性が低い場合、局所SGDがミニバッチSGDよりも優位であることを示す新しい上限を与える、高次滑らか性および不均一性仮定を検討する。
関連論文リスト
- Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - Why (and When) does Local SGD Generalize Better than SGD? [46.993699881100454]
ローカルSGDは、大規模トレーニングのための通信効率のよいSGDの亜種である。
本稿では,微分方程式(SDE)近似に基づいて局所SGDがより一般化する理由(およびいつ)を理解することを目的とする。
論文 参考訳(メタデータ) (2023-03-02T12:56:52Z) - Federated Minimax Optimization: Improved Convergence Analyses and
Algorithms [32.062312674333775]
我々は、最小限の最適化を考慮し、GANのようなモダンな機械学習アプリケーションの多くを普及させています。
我々は,既存の文献における収束通信の保証を改善する,新しい,より厳密な解析アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-09T16:21:31Z) - Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-12T15:12:17Z) - Local Stochastic Gradient Descent Ascent: Convergence Analysis and
Communication Efficiency [15.04034188283642]
Local SGDは分散学習における通信オーバーヘッドを克服するための有望なアプローチである。
局所sgdaは均質データと異質データの両方において分散ミニマックス問題を確実に最適化できることを示す。
論文 参考訳(メタデータ) (2021-02-25T20:15:18Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。
非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文 参考訳(メタデータ) (2020-06-08T16:40:49Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Is Local SGD Better than Minibatch SGD? [60.42437186984968]
凸設定における既存のエラー保証はすべて、単純なベースラインであるミニバッチSGDによって支配されていることを示す。
局所的なSGDがミニバッチSGDの保証よりも悪い局所的なSGDの性能に低いバウンダリを提示することで、実際に局所的なSGDが支配的でないことを示す。
論文 参考訳(メタデータ) (2020-02-18T19:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。