論文の概要: Stability and Generalization for Minibatch SGD and Local SGD
- arxiv url: http://arxiv.org/abs/2310.01139v2
- Date: Mon, 30 Oct 2023 07:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:39:47.993891
- Title: Stability and Generalization for Minibatch SGD and Local SGD
- Title(参考訳): ミニバッチSGDと局所SGDの安定性と一般化
- Authors: Yunwen Lei, Tao Sun, Mingrui Liu
- Abstract要約: ミニバッチ勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
本研究では,ミニバッチと局所SGDの安定性と一般化解析を行い,学習性について考察した。
最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。
- 参考スコア(独自算出の注目度): 46.45496260281998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing scale of data propels the popularity of leveraging parallelism
to speed up the optimization. Minibatch stochastic gradient descent (minibatch
SGD) and local SGD are two popular methods for parallel optimization. The
existing theoretical studies show a linear speedup of these methods with
respect to the number of machines, which, however, is measured by optimization
errors. As a comparison, the stability and generalization of these methods are
much less studied. In this paper, we study the stability and generalization
analysis of minibatch and local SGD to understand their learnability by
introducing a novel expectation-variance decomposition. We incorporate training
errors into the stability analysis, which shows how small training errors help
generalization for overparameterized models. We show both minibatch and local
SGD achieve a linear speedup to attain the optimal risk bounds.
- Abstract(参考訳): データの規模が大きくなることで、最適化のスピードアップに並列性を活用する人気が高まっている。
ミニバッチ確率勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
既存の理論的研究は、最適化誤差によって測定される機械の数に関して、これらの手法の線形高速化を示している。
比較として、これらの手法の安定性と一般化はあまり研究されていない。
本稿では,ミニバッチと局所SGDの安定性と一般化解析を行い,新しい予測分散分解を導入して学習可能性を理解する。
トレーニングエラーを安定性解析に組み込むことで、過パラメータモデルの一般化にいかに役立つかを示す。
最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。
関連論文リスト
- The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - SGDA with shuffling: faster convergence for nonconvex-P{\L} minimax
optimization [18.668531108219415]
逐次降下勾配(SGDA)を用いた最小最適化問題に対する理論的アプローチを提案する。
我々は,ポリアック・ロジャシエヴィチ(PL)幾何を用いて,非凹凸対象に対するSGDA-LLの同時的および交互的目的を解析した。
我々のレートはミニバッチGDARRにも拡張され、完全な勾配勾配降下勾配 (GDA) の既知率はほとんど回復しない。
最後に, 2 時間スケール GDA の包括的下限について述べる。
論文 参考訳(メタデータ) (2022-10-12T08:05:41Z) - Learning from time-dependent streaming data with online stochastic
algorithms [7.283533791778357]
本稿では,時間依存的,偏りのある推定値を用いたストリーミング環境での最適化について述べる。
グラディエントDescent(SGD)、ミニバッチSGD、時間変化のミニバッチSGD、およびPolyak-Ruppert平均値など、いくつかの一階法を解析する。
論文 参考訳(メタデータ) (2022-05-25T07:53:51Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Variance Regularization for Accelerating Stochastic Optimization [14.545770519120898]
ミニバッチ勾配に隠れた統計情報を利用してランダムな誤りの蓄積を低減する普遍原理を提案する。
これは、ミニバッチのばらつきに応じて学習率を正規化することで達成される。
論文 参考訳(メタデータ) (2020-08-13T15:34:01Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。
非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文 参考訳(メタデータ) (2020-06-08T16:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。