論文の概要: Generalization and Optimization of SGD with Lookahead
- arxiv url: http://arxiv.org/abs/2509.15776v1
- Date: Fri, 19 Sep 2025 09:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.088259
- Title: Generalization and Optimization of SGD with Lookahead
- Title(参考訳): LookaheadによるSGDの一般化と最適化
- Authors: Kangcheng Li, Yunwen Lei,
- Abstract要約: Lookaheadは、デュアルウェイト更新メカニズムを利用することで、ディープラーニングモデルを強化する。
ほとんどの理論的研究は、その一般化能力があまり理解されていないまま、訓練データへの収束に焦点を当てている。
- 参考スコア(独自算出の注目度): 20.363815126393884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Lookahead optimizer enhances deep learning models by employing a dual-weight update mechanism, which has been shown to improve the performance of underlying optimizers such as SGD. However, most theoretical studies focus on its convergence on training data, leaving its generalization capabilities less understood. Existing generalization analyses are often limited by restrictive assumptions, such as requiring the loss function to be globally Lipschitz continuous, and their bounds do not fully capture the relationship between optimization and generalization. In this paper, we address these issues by conducting a rigorous stability and generalization analysis of the Lookahead optimizer with minibatch SGD. We leverage on-average model stability to derive generalization bounds for both convex and strongly convex problems without the restrictive Lipschitzness assumption. Our analysis demonstrates a linear speedup with respect to the batch size in the convex setting.
- Abstract(参考訳): Lookaheadオプティマイザは、SGDのような基盤となるオプティマイザの性能を改善するために、デュアルウェイト更新機構を使用することで、ディープラーニングモデルを強化する。
しかし、ほとんどの理論的研究は、その一般化能力があまり理解されていないまま、訓練データへの収束に焦点を当てている。
既存の一般化解析は、損失関数を大域的にリプシッツ連続とするといった制限的な仮定によって制限されることが多く、それらの境界は最適化と一般化の関係を完全に捉えていない。
本稿では,ミニバッチSGDを用いたLookaheadオプティマイザの厳密な安定性と一般化解析を行うことにより,これらの問題に対処する。
平均モデル安定性を利用して、制限的なリプシッツネス仮定なしで凸および強凸問題の一般化境界を導出する。
本分析は,凸設定におけるバッチサイズに対する線形スピードアップを示す。
関連論文リスト
- A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - Improved Stability and Generalization Guarantees of the Decentralized SGD Algorithm [33.64407835198723]
本稿では,アルゴリズムの安定性に基づく分散勾配 Descent (D-SGD) の新しい一般化解析法を提案する。
この新たな発見は、グラフの選択が、最悪の凸関数と非連結関数を実際に改善できることを明らかにしている。
論文 参考訳(メタデータ) (2023-06-05T15:03:01Z) - On Stability and Generalization of Bilevel Optimization Problem [39.662459636180174]
(確率的)バイレベル最適化は、幅広いアプリケーションを持つ機械学習において頻繁に発生する問題である。
まず、安定性とエラーを異なる形で関連付けることで、前のベストな結果を改善する高い確率を与える。
次に、両外層パラメータが連続している場合に、外層パラメータのみを更新できるのに対して、第1の安定性を提供する。
論文 参考訳(メタデータ) (2022-10-03T16:22:57Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Learning Prediction Intervals for Regression: Generalization and
Calibration [12.576284277353606]
不確実性定量のための回帰における予測間隔の生成について検討する。
我々は一般学習理論を用いて、リプシッツ連続性とVC-サブグラフクラスを含む最適性と実現可能性のトレードオフを特徴づける。
我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。
論文 参考訳(メタデータ) (2021-02-26T17:55:30Z) - SGD for Structured Nonconvex Functions: Learning Rates, Minibatching and
Interpolation [17.199023009789308]
予想されるSGD(SGD)の仮定は、非アーティザン関数に対して日常的に使われている。
本稿では,スムーズな非線形設定への収束のパラダイムを示す。
また,異なるステップサイズ条件の理論的保証も提供する。
論文 参考訳(メタデータ) (2020-06-18T07:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。