論文の概要: On the Stability of Gradient Descent for Large Learning Rate
- arxiv url: http://arxiv.org/abs/2402.13108v1
- Date: Tue, 20 Feb 2024 16:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:28:13.271899
- Title: On the Stability of Gradient Descent for Large Learning Rate
- Title(参考訳): 大規模学習におけるグラディエントDescentの安定性について
- Authors: Alexandru Cr\u{a}ciun, Debarghya Ghoshdastidar
- Abstract要約: ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
- 参考スコア(独自算出の注目度): 62.19241612132701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There currently is a significant interest in understanding the Edge of
Stability (EoS) phenomenon, which has been observed in neural networks
training, characterized by a non-monotonic decrease of the loss function over
epochs, while the sharpness of the loss (spectral norm of the Hessian)
progressively approaches and stabilizes around 2/(learning rate). Reasons for
the existence of EoS when training using gradient descent have recently been
proposed -- a lack of flat minima near the gradient descent trajectory together
with the presence of compact forward-invariant sets. In this paper, we show
that linear neural networks optimized under a quadratic loss function satisfy
the first assumption and also a necessary condition for the second assumption.
More precisely, we prove that the gradient descent map is non-singular, the set
of global minimizers of the loss function forms a smooth manifold, and the
stable minima form a bounded subset in parameter space. Additionally, we prove
that if the step-size is too big, then the set of initializations from which
gradient descent converges to a critical point has measure zero.
- Abstract(参考訳): 現在、ニューラルネットワークのトレーニングで観察されている安定性のエッジ(eos)現象を理解することには、エポックに対する損失関数の非単調な減少が特徴であり、損失の鋭さ(ヘッセンのスペクトルノルム)は徐々に2/(学習率)前後に接近して安定化している。
勾配降下を用いたトレーニングにおける eos の存在理由が最近提案されているが、勾配降下軌道付近の平坦な極小とコンパクトな前方不変集合の存在が欠如している。
本稿では,2次損失関数の下で最適化された線形ニューラルネットワークが,第1の仮定および第2の仮定に必要な条件を満たすことを示す。
より正確には、勾配降下写像が非特異であることを証明し、損失関数の大域最小化の集合は滑らかな多様体を形成し、安定なミニマはパラメータ空間の有界部分集合を形成する。
さらに、ステップサイズが大きすぎると、勾配降下が臨界点に収束する初期化の集合は 0 となることが証明される。
関連論文リスト
- Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult [49.8719617899285]
非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。
この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
論文 参考訳(メタデータ) (2023-10-26T01:11:17Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Understanding the unstable convergence of gradient descent [51.40523554349091]
機械学習アプリケーションでは、ステップサイズが$L$-smoothコストの場合、ステップサイズは2/L$未満である、という条件を満たさないことが多い。
我々は、この不安定収束現象を第一原理から検討し、その背景にある主要な原因を解明する。
我々はまた、その主な特徴とそれらの相互関係を識別し、理論と実験の両方に裏打ちされた透明なビューを提供する。
論文 参考訳(メタデータ) (2022-04-03T11:10:17Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。