論文の概要: Why (and When) does Local SGD Generalize Better than SGD?
- arxiv url: http://arxiv.org/abs/2303.01215v1
- Date: Thu, 2 Mar 2023 12:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 14:39:24.783787
- Title: Why (and When) does Local SGD Generalize Better than SGD?
- Title(参考訳): なぜ(そしていつ)ローカルSGDはSGDより一般化するのか?
- Authors: Xinran Gu, Kaifeng Lyu, Longbo Huang, Sanjeev Arora
- Abstract要約: ローカルSGDは、大規模トレーニングのための通信効率のよいSGDの亜種である。
本稿では,微分方程式(SDE)近似に基づいて局所SGDがより一般化する理由(およびいつ)を理解することを目的とする。
- 参考スコア(独自算出の注目度): 46.993699881100454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local SGD is a communication-efficient variant of SGD for large-scale
training, where multiple GPUs perform SGD independently and average the model
parameters periodically. It has been recently observed that Local SGD can not
only achieve the design goal of reducing the communication overhead but also
lead to higher test accuracy than the corresponding SGD baseline (Lin et al.,
2020b), though the training regimes for this to happen are still in debate
(Ortiz et al., 2021). This paper aims to understand why (and when) Local SGD
generalizes better based on Stochastic Differential Equation (SDE)
approximation. The main contributions of this paper include (i) the derivation
of an SDE that captures the long-term behavior of Local SGD in the small
learning rate regime, showing how noise drives the iterate to drift and diffuse
after it has reached close to the manifold of local minima, (ii) a comparison
between the SDEs of Local SGD and SGD, showing that Local SGD induces a
stronger drift term that can result in a stronger effect of regularization,
e.g., a faster reduction of sharpness, and (iii) empirical evidence validating
that having a small learning rate and long enough training time enables the
generalization improvement over SGD but removing either of the two conditions
leads to no improvement.
- Abstract(参考訳): ローカルSGDは大規模トレーニングのための通信効率のよいSGDの一種であり、複数のGPUが独立してSGDを実行し、定期的にモデルのパラメータを平均する。
近年、ローカルsgdは、通信オーバーヘッドを減らすという設計目標を達成するだけでなく、対応するsgdベースライン(lin et al., 2020b)よりも高いテスト精度をもたらすことが観測されているが、このためのトレーニング制度はまだ議論中である(ortiz et al., 2021)。
本稿では,SDE(Stochastic Differential Equation)近似に基づいて局所SGDがより一般化する理由(そしていつ)を理解することを目的とする。
この論文の主な貢献は
i) 局所的なSGDの長期的挙動を学習率系で捉えたSDEの導出により, 局所的ミニマの多様体に近づくと, 騒音が反復して漂流し拡散することを示す。
(II)局所SGDと局所SGDのSDEの比較により、局所SGDはより強いドリフト項を誘導し、正則化の強い効果、例えば、より速いシャープネスの減少をもたらすことが示されている。
(iii)学習率の小さい、十分な訓練時間を持つと、sgdよりも一般化できるが、2つの条件のどちらかを取り除くと改善しないという実証的な証拠。
関連論文リスト
- Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - Local SGD Accelerates Convergence by Exploiting Second Order Information
of the Loss Function [1.7767466724342065]
局所統計勾配勾配(L-SGD)は分散機械学習手法において非常に有効であることが証明されている。
本稿では,L-SGDの強みを理解するための新たな視点を提供する。
論文 参考訳(メタデータ) (2023-05-24T10:54:45Z) - Risk Bounds of Multi-Pass SGD for Least Squares in the Interpolation
Regime [127.21287240963859]
勾配降下(SGD)は最適化と一般化の両方において優れた性能を持つため、大きな成功を収めている。
本稿では,マルチパスSGDの一般化を強く特徴付けることを目的とする。
我々は,SGDが同じレベルの過剰リスクを達成するためには,GD以上を必要とするが,勾配評価の回数を削減できることを示した。
論文 参考訳(メタデータ) (2022-03-07T06:34:53Z) - Trade-offs of Local SGD at Scale: An Empirical Study [24.961068070560344]
通信オーバヘッドを低減するため,ローカルSGDと呼ばれる手法について検討する。
ローカルSGDの実行には,通信コストの低減(トレーニングの高速化)と精度の低下が伴う。
また、低速運動量フレームワークを組み込むことで、追加の通信を必要とせず、常に精度が向上することを示す。
論文 参考訳(メタデータ) (2021-10-15T15:00:42Z) - SGD with a Constant Large Learning Rate Can Converge to Local Maxima [4.014524824655106]
我々は、勾配降下が奇妙で望ましくない振る舞いを示す可能性があることを示す最悪の最適化問題を構築する。
具体的には、SGDが局所的な最大値に収束するようにランドスケープとデータ分布を構築する。
本結果は,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。
論文 参考訳(メタデータ) (2021-07-25T10:12:18Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Is Local SGD Better than Minibatch SGD? [60.42437186984968]
凸設定における既存のエラー保証はすべて、単純なベースラインであるミニバッチSGDによって支配されていることを示す。
局所的なSGDがミニバッチSGDの保証よりも悪い局所的なSGDの性能に低いバウンダリを提示することで、実際に局所的なSGDが支配的でないことを示す。
論文 参考訳(メタデータ) (2020-02-18T19:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。