論文の概要: On the Convergence of Gradient Descent for Large Learning Rates
- arxiv url: http://arxiv.org/abs/2402.13108v2
- Date: Tue, 3 Sep 2024 14:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 19:31:47.182029
- Title: On the Convergence of Gradient Descent for Large Learning Rates
- Title(参考訳): 大規模学習におけるグラディエントDescentの収束性について
- Authors: Alexandru Crăciun, Debarghya Ghoshdastidar,
- Abstract要約: 固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
- 参考スコア(独自算出の注目度): 55.33626480243135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A vast literature on convergence guarantees for gradient descent and derived methods exists at the moment. However, a simple practical situation remains unexplored: when a fixed step size is used, can we expect gradient descent to converge starting from any initialization? We provide fundamental impossibility results showing that convergence becomes impossible no matter the initialization if the step size gets too big. Looking at the asymptotic value of the gradient norm along the optimization trajectory, we see that there is a phase transition as the step size crosses a critical value. This has been observed by practitioners, yet the true mechanisms through which this happens remain unclear beyond heuristics. Using results from dynamical systems theory, we provide a proof of this in the case of linear neural networks with a squared loss. We also prove the impossibility of convergence for more general losses without requiring strong assumptions such as Lipschitz continuity for the gradient. We validate our findings through experiments with non-linear networks.
- Abstract(参考訳): 収束に関する膨大な文献は、勾配降下と導出法が現在存在することを保証している。
しかし、単純な実践的な状況は未解明のままであり、固定されたステップサイズを使用する場合、任意の初期化から勾配降下が収束することを期待できるだろうか?
ステップサイズが大きすぎると初期化が成立しても収束は不可能となることを示す。
最適化軌道に沿った勾配ノルムの漸近値を見ると、ステップサイズが臨界値を超えたときに相転移が存在することが分かる。
この現象は実践者によって観測されているが、実際のメカニズムはヒューリスティックス以外には明らかではない。
力学系理論の結果を用いて、正方形損失を持つ線形ニューラルネットワークの場合、これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
非線形ネットワークを用いた実験により,本研究の妥当性を検証した。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimiax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow
Solutions in Scalar Networks and Beyond [30.545436106324203]
ニューラルネットワークにグラディエントDescentを適用すると、損失はほぼ単調に減少する。
代わりに、勾配勾配が「安定のエッジ」に収束するにつれて損失は振動する(EoS)。
論文 参考訳(メタデータ) (2023-05-22T14:27:27Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient descent provably escapes saddle points in the training of
shallow ReLU networks [3.0079490585515343]
関係する力学系の結果の変種、中心安定多様体定理を証明し、いくつかの正則性要件を緩和する。
アフィンターゲット関数に対して測定された浅部ReLUネットワークの2乗積分損失の臨界点の分類に基づいて、勾配降下がほとんどのサドル点を回避することを推定する。
論文 参考訳(メタデータ) (2022-08-03T14:08:52Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。