論文の概要: Convergence Rates for Gradient Descent on the Edge of Stability in Overparametrised Least Squares
- arxiv url: http://arxiv.org/abs/2510.17506v1
- Date: Mon, 20 Oct 2025 13:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.456501
- Title: Convergence Rates for Gradient Descent on the Edge of Stability in Overparametrised Least Squares
- Title(参考訳): 過パラメトリ型最小方形における安定端の勾配勾配の収束速度
- Authors: Lachlan Ewen MacDonald, Hancheng Min, Leandro Palma, Salma Tarmoun, Ziqing Xu, René Vidal,
- Abstract要約: ニューラルネットワーク上の勾配降下は、安定性の端と呼ばれる大きなステップサイズで頻繁に実行される。
過度にパラメータ化された最小二乗の設定において、学習率の高い勾配降下に対する収束率を提供する。
- 参考スコア(独自算出の注目度): 33.60489399178793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classical optimisation theory guarantees monotonic objective decrease for gradient descent (GD) when employed in a small step size, or ``stable", regime. In contrast, gradient descent on neural networks is frequently performed in a large step size regime called the ``edge of stability", in which the objective decreases non-monotonically with an observed implicit bias towards flat minima. In this paper, we take a step toward quantifying this phenomenon by providing convergence rates for gradient descent with large learning rates in an overparametrised least squares setting. The key insight behind our analysis is that, as a consequence of overparametrisation, the set of global minimisers forms a Riemannian manifold $M$, which enables the decomposition of the GD dynamics into components parallel and orthogonal to $M$. The parallel component corresponds to Riemannian gradient descent on the objective sharpness, while the orthogonal component is a bifurcating dynamical system. This insight allows us to derive convergence rates in three regimes characterised by the learning rate size: (a) the subcritical regime, in which transient instability is overcome in finite time before linear convergence to a suboptimally flat global minimum; (b) the critical regime, in which instability persists for all time with a power-law convergence toward the optimally flat global minimum; and (c) the supercritical regime, in which instability persists for all time with linear convergence to an orbit of period two centred on the optimally flat global minimum.
- Abstract(参考訳): 古典的最適化理論は、小さなステップサイズ、すなわち「安定」状態において、勾配降下(GD)の単調な客観的減少を保証している。対照的に、ニューラルネットワーク上の勾配降下は「安定の端」と呼ばれる大きなステップサイズで頻繁に行われ、その目的は平らなミニマに対して観察された暗黙の偏差で単調に減少する。
本稿では, この現象の定量化に向けて, 過度にパラメータ化された最小二乗の設定において, 勾配勾配の収束率と学習率を高め, 収束率を提供する。
我々の分析の背景にある重要な洞察は、過度なパラメータ化の結果、大域的ミニミザーの集合がリーマン多様体$M$を形成し、GDダイナミクスを平行して$M$に直交する成分への分解を可能にすることである。
平行成分は目的的鋭さのリーマン勾配降下に対応し、直交成分は分岐力学系である。
この洞察は、学習率の大きさによって特徴づけられる3つの体制における収束率を導出することを可能にする。
a) 過渡的不安定性が線形収束前に有限時間で克服され、最適に平坦な大域最小値に収束する部分臨界状態
b) 不安定性が常に最適に平坦な大域最小値に収束して持続する臨界的体制
(c) 最適に平坦な大域最小値を中心とする周期2の軌道への線形収束で、常に不安定な状態が続く超臨界状態。
関連論文リスト
- Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。