論文の概要: Stochastic Gradient Descent with Momentum is Algorithmically Stable
- arxiv url: http://arxiv.org/abs/2605.28517v1
- Date: Wed, 27 May 2026 14:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.104797
- Title: Stochastic Gradient Descent with Momentum is Algorithmically Stable
- Title(参考訳): Momentum を用いた確率的グラディエントDescence はアルゴリズム的に安定である
- Authors: Yunwen Lei, Zimeng Wang, Xiaoming Yuan,
- Abstract要約: 運動量による勾配降下(SGDM)は機械学習において最も広く使われている最適化アルゴリズムの1つである。
我々は,SGDMの総合的な一般化解析をアルゴリズム安定性のレンズを用いて開発する。
- 参考スコア(独自算出の注目度): 20.643275323974425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent with momentum (SGDM) is one of the most widely used optimization algorithms in machine learning. While optimization properties of SGDM have been extensively studied in the literature, it remains insufficiently understood whether and when SGDM can generalize well to unseen data. In particular, it has been conjectured that while momentum accelerates training, it may degrade generalization. In this paper, we close this gap by developing a comprehensive generalization analysis of SGDM through the lens of algorithmic stability. More specifically, we introduce a generalized SGDM framework that encompasses both Polyak's and Nesterov's momentum schemes, and establish tight on-average model stability bounds for smooth and convex problems. Notably, the obtained bounds exploit small optimization error bounds along the trajectory, apply to any momentum parameter in the interval $[0, 1)$, and do not require the commonly assumed Lipschitzness of loss functions. We further derive optimization error bounds for the generalized SGDM, and combine them with our generalization analyses to obtain optimal excess population risk bounds for SGDM with both Polyak's and Nesterov's momentum.
- Abstract(参考訳): 運動量による確率勾配降下(SGDM)は機械学習において最も広く使われている最適化アルゴリズムの1つである。
SGDMの最適化特性は文献で広く研究されているが、SGDMが不明瞭なデータに対して適切に一般化できるかどうか、またいつまでも十分に理解されていない。
特に、運動量は訓練を加速するが、一般化を低下させる可能性があると推測されている。
本稿では,アルゴリズム安定性のレンズを用いて,SGDMの包括的一般化解析を開発することにより,このギャップを埋める。
具体的には、PolyakとNesterovの運動量スキームの両方を包含する一般化SGDMフレームワークを導入し、滑らかで凸な問題に対して、平均モデル安定性を厳密に設定する。
特に、得られた境界は軌道に沿った小さな最適化誤差境界を利用し、任意の運動量パラメータに$[0, 1)$を適用し、損失関数の一般に仮定されるリプシッツ性を必要としない。
さらに、一般化されたSGDMの最適化誤差境界を導出し、一般化解析と組み合わせて、SGDMの最適過剰集団リスク境界とPolyakとNesterovの運動量を求める。
関連論文リスト
- Generalization and Optimization of SGD with Lookahead [20.363815126393884]
Lookaheadは、デュアルウェイト更新メカニズムを利用することで、ディープラーニングモデルを強化する。
ほとんどの理論的研究は、その一般化能力があまり理解されていないまま、訓練データへの収束に焦点を当てている。
論文 参考訳(メタデータ) (2025-09-19T09:02:09Z) - Acceleration of stochastic gradient descent with momentum by averaging:
finite-sample rates and asymptotic normality [7.793751573538388]
運動量による勾配降下(SGDM)は多くの機械学習や統計応用で広く利用されている。
強い凸条件下でSGDMの有限サンプル収束速度を解析する。
バッチサイズが大きいと、ミニバッチSGDMは、ミニバッチSGDよりも高速に、最適な値の近傍に収束することを示す。
論文 参考訳(メタデータ) (2023-05-28T08:49:24Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。