論文の概要: Stability and Generalization for Minibatch SGD and Local SGD
- arxiv url: http://arxiv.org/abs/2310.01139v1
- Date: Mon, 2 Oct 2023 12:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:00:41.967283
- Title: Stability and Generalization for Minibatch SGD and Local SGD
- Title(参考訳): ミニバッチSGDと局所SGDの安定性と一般化
- Authors: Yunwen Lei, Tao Sun, Mingrui Liu
- Abstract要約: ミニバッチ勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
我々は,ミニバッチと局所SGDの安定性と一般化解析の先駆者であり,その学習可能性を理解する。
最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。
- 参考スコア(独自算出の注目度): 46.45496260281998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing scale of data propels the popularity of leveraging parallelism
to speed up the optimization. Minibatch stochastic gradient descent (minibatch
SGD) and local SGD are two popular methods for parallel optimization. The
existing theoretical studies show a linear speedup of these methods with
respect to the number of machines, which, however, is measured by optimization
errors. As a comparison, the stability and generalization of these methods are
much less studied. In this paper, we pioneer the stability and generalization
analysis of minibatch and local SGD to understand their learnability. We
incorporate training errors into the stability analysis, which shows how small
training errors help generalization for overparameterized models. Our stability
bounds imply optimistic risk bounds which decay fast under a low noise
condition. We show both minibatch and local SGD achieve a linear speedup to
attain the optimal risk bounds.
- Abstract(参考訳): データの規模が大きくなることで、最適化のスピードアップに並列性を活用する人気が高まっている。
ミニバッチ確率勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
既存の理論的研究は、最適化誤差によって測定される機械の数に関して、これらの手法の線形高速化を示している。
比較として、これらの手法の安定性と一般化はあまり研究されていない。
本稿では,ミニバッチとローカルsgdの安定性と一般化解析を行い,学習可能性について考察する。
トレーニングエラーを安定性解析に組み込むことで、過パラメータモデルの一般化にいかに役立つかを示す。
我々の安定性は、低騒音条件下で急速に崩壊する楽観的なリスク境界を暗示している。
最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。
関連論文リスト
- Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - The Limits and Potentials of Local SGD for Distributed Heterogeneous Learning with Intermittent Communication [37.210933391984014]
ローカルSGDは分散学習において一般的な最適化手法であり、実際には他のアルゴリズムよりも優れていることが多い。
我々は、既存の一階データ不均一性仮定の下で、局所的なSGDに対して新しい下界を提供する。
また、いくつかの問題クラスに対して、高速化されたミニバッチSGDの min-max 最適性を示す。
論文 参考訳(メタデータ) (2024-05-19T20:20:03Z) - SGDA with shuffling: faster convergence for nonconvex-P{\L} minimax
optimization [18.668531108219415]
逐次降下勾配(SGDA)を用いた最小最適化問題に対する理論的アプローチを提案する。
我々は,ポリアック・ロジャシエヴィチ(PL)幾何を用いて,非凹凸対象に対するSGDA-LLの同時的および交互的目的を解析した。
我々のレートはミニバッチGDARRにも拡張され、完全な勾配勾配降下勾配 (GDA) の既知率はほとんど回復しない。
最後に, 2 時間スケール GDA の包括的下限について述べる。
論文 参考訳(メタデータ) (2022-10-12T08:05:41Z) - Learning from time-dependent streaming data with online stochastic
algorithms [7.283533791778357]
本稿では,時間依存的,偏りのある推定値を用いたストリーミング環境での最適化について述べる。
グラディエントDescent(SGD)、ミニバッチSGD、時間変化のミニバッチSGD、およびPolyak-Ruppert平均値など、いくつかの一階法を解析する。
論文 参考訳(メタデータ) (2022-05-25T07:53:51Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Minibatch vs Local SGD for Heterogeneous Distributed Learning [28.80878557506603]
この環境では、Minibatch SGDがLocal SGDの既存の分析を全て支配していると論じる。
非均一な状態下で, ミニバッチSGDよりも改善された局所SGDの第一上界を示す。
論文 参考訳(メタデータ) (2020-06-08T16:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。