論文の概要: Is Local SGD Better than Minibatch SGD?
- arxiv url: http://arxiv.org/abs/2002.07839v2
- Date: Mon, 20 Jul 2020 15:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 19:51:17.718882
- Title: Is Local SGD Better than Minibatch SGD?
- Title(参考訳): ローカルSGDはミニバッチSGDより優れているか?
- Authors: Blake Woodworth, Kumar Kshitij Patel, Sebastian U. Stich, Zhen Dai,
Brian Bullins, H. Brendan McMahan, Ohad Shamir, Nathan Srebro
- Abstract要約: 凸設定における既存のエラー保証はすべて、単純なベースラインであるミニバッチSGDによって支配されていることを示す。
局所的なSGDがミニバッチSGDの保証よりも悪い局所的なSGDの性能に低いバウンダリを提示することで、実際に局所的なSGDが支配的でないことを示す。
- 参考スコア(独自算出の注目度): 60.42437186984968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study local SGD (also known as parallel SGD and federated averaging), a
natural and frequently used stochastic distributed optimization method. Its
theoretical foundations are currently lacking and we highlight how all existing
error guarantees in the convex setting are dominated by a simple baseline,
minibatch SGD. (1) For quadratic objectives we prove that local SGD strictly
dominates minibatch SGD and that accelerated local SGD is minimax optimal for
quadratics; (2) For general convex objectives we provide the first guarantee
that at least sometimes improves over minibatch SGD; (3) We show that indeed
local SGD does not dominate minibatch SGD by presenting a lower bound on the
performance of local SGD that is worse than the minibatch SGD guarantee.
- Abstract(参考訳): 局所sgd (parallel sgd, federated averaging) は確率的分散最適化手法である。
現在、その理論的基盤は欠如しており、凸設定における既存のエラー保証が、いかに単純なベースラインであるミニバッチSGDによって支配されているかを強調している。
1) 局所SGDがミニバッチSGDを厳密に支配し, 局所SGDの加速が二次性に最適であることを示す; (2) 一般凸目的のためには, 局所SGDがミニバッチSGDよりも少なくとも時々改善されることを第一保証する; (3) 実際に局所SGDがミニバッチSGDよりも悪い局所SGDの性能の低い境界を示すことによって, 局所SGDがミニバッチSGDを支配できないことを示す。
関連論文リスト
- The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Stability and Generalization for Minibatch SGD and Local SGD [46.45496260281998]
ミニバッチ勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
本研究では,ミニバッチと局所SGDの安定性と一般化解析を行い,学習性について考察した。
最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。
論文 参考訳(メタデータ) (2023-10-02T12:26:51Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - Why (and When) does Local SGD Generalize Better than SGD? [46.993699881100454]
ローカルSGDは、大規模トレーニングのための通信効率のよいSGDの亜種である。
本稿では,微分方程式(SDE)近似に基づいて局所SGDがより一般化する理由(およびいつ)を理解することを目的とする。
論文 参考訳(メタデータ) (2023-03-02T12:56:52Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - SGD with a Constant Large Learning Rate Can Converge to Local Maxima [4.014524824655106]
我々は、勾配降下が奇妙で望ましくない振る舞いを示す可能性があることを示す最悪の最適化問題を構築する。
具体的には、SGDが局所的な最大値に収束するようにランドスケープとデータ分布を構築する。
本結果は,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。
論文 参考訳(メタデータ) (2021-07-25T10:12:18Z) - Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。
非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文 参考訳(メタデータ) (2020-06-08T16:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。