論文の概要: On Gradient Descent Convergence beyond the Edge of Stability
- arxiv url: http://arxiv.org/abs/2206.04172v1
- Date: Wed, 8 Jun 2022 21:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:24:29.277299
- Title: On Gradient Descent Convergence beyond the Edge of Stability
- Title(参考訳): 安定の端を超えた勾配のDescent Convergenceについて
- Authors: Lei Chen, Joan Bruna
- Abstract要約: Gradient Descentは、現代の機械学習の強力な仕事場だ。
これは下層の勾配流の「ボナ・フェイド」の離散化と見なすことができる。
過パラメータモデルを含む多くのMLセットアップは、この問題クラスに該当しない。
- 参考スコア(独自算出の注目度): 49.03389279816152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient Descent (GD) is a powerful workhorse of modern machine learning
thanks to its scalability and efficiency in high-dimensional spaces. Its
ability to find local minimisers is only guaranteed for losses with Lipschitz
gradients, where it can be seen as a 'bona-fide' discretisation of an
underlying gradient flow. Yet, many ML setups involving overparametrised models
do not fall into this problem class, which has motivated research beyond the
so-called "Edge of Stability", where the step-size crosses the admissibility
threshold inversely proportional to the Lipschitz constant above. Perhaps
surprisingly, GD has been empirically observed to still converge regardless of
local instability. In this work, we study a local condition for such an
unstable convergence around a local minima in a low dimensional setting. We
then leverage these insights to establish global convergence of a two-layer
single-neuron ReLU student network aligning with the teacher neuron in a large
learning rate beyond the Edge of Stability under population loss. Meanwhile,
while the difference of norms of the two layers is preserved by gradient flow,
we show that GD above the edge of stability induces a balancing effect, leading
to the same norms across the layers.
- Abstract(参考訳): Gradient Descent(GD)は、高次元空間におけるスケーラビリティと効率のおかげで、現代の機械学習の強力なワークホースである。
局所的なミニミサーを見つける能力は、リプシッツ勾配の損失に対してのみ保証されており、下層の勾配流の「ボナフィド」の離散化と見なすことができる。
しかし、過パラメータモデルを含む多くのmlセットアップは、上記のリプシッツ定数に反比例する許容しきい値にステップサイズが交差するいわゆる「安定性のエッジ」以上の研究を動機付けたこの問題クラスには入らない。
おそらく驚くべきことに、gdは局所的な不安定さに関わらず依然として収束していることが実証的に観察されている。
本研究では,低次元環境における局所ミニマまわりの不安定収束に対する局所条件について検討する。
次に,これらの知見を活かして,教師ニューロンと協調する2層relu学習ネットワークのグローバル収束を,人口減少下での安定性の限界を超えた大きな学習率で確立する。
一方,2層間のノルムの差は勾配流によって保存されるが,gdは安定性の限界を超えるとバランス効果が引き起こされ,同じノルムが層間に存在することが示されている。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Provably Accelerating Ill-Conditioned Low-rank Estimation via Scaled
Gradient Descent, Even with Overparameterization [48.65416821017865]
この章では、スケールドグラデーション(ScaledGD)と呼ばれる新しいアルゴリズムアプローチを紹介します。
低ランク物体の条件数に依存しない定数速度で直線的に収束する。
様々なタスクに対して、勾配降下の低い摂動コストを維持できる。
論文 参考訳(メタデータ) (2023-10-09T21:16:57Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - A Local Convergence Theory for the Stochastic Gradient Descent Method in
Non-Convex Optimization With Non-isolated Local Minima [0.0]
非孤立ミニマは、未探索のままのユニークな挑戦を示す。
本稿では, 勾配降下法の非溶解大域ミニマへの局所収束について検討する。
論文 参考訳(メタデータ) (2022-03-21T13:33:37Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。