論文の概要: On the Stability of Gradient Descent for Large Learning Rate
- arxiv url: http://arxiv.org/abs/2402.13108v1
- Date: Tue, 20 Feb 2024 16:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:28:13.271899
- Title: On the Stability of Gradient Descent for Large Learning Rate
- Title(参考訳): 大規模学習におけるグラディエントDescentの安定性について
- Authors: Alexandru Cr\u{a}ciun, Debarghya Ghoshdastidar
- Abstract要約: ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。
2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
- 参考スコア(独自算出の注目度): 62.19241612132701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There currently is a significant interest in understanding the Edge of
Stability (EoS) phenomenon, which has been observed in neural networks
training, characterized by a non-monotonic decrease of the loss function over
epochs, while the sharpness of the loss (spectral norm of the Hessian)
progressively approaches and stabilizes around 2/(learning rate). Reasons for
the existence of EoS when training using gradient descent have recently been
proposed -- a lack of flat minima near the gradient descent trajectory together
with the presence of compact forward-invariant sets. In this paper, we show
that linear neural networks optimized under a quadratic loss function satisfy
the first assumption and also a necessary condition for the second assumption.
More precisely, we prove that the gradient descent map is non-singular, the set
of global minimizers of the loss function forms a smooth manifold, and the
stable minima form a bounded subset in parameter space. Additionally, we prove
that if the step-size is too big, then the set of initializations from which
gradient descent converges to a critical point has measure zero.
- Abstract(参考訳): 現在、ニューラルネットワークのトレーニングで観察されている安定性のエッジ(eos)現象を理解することには、エポックに対する損失関数の非単調な減少が特徴であり、損失の鋭さ(ヘッセンのスペクトルノルム)は徐々に2/(学習率)前後に接近して安定化している。
勾配降下を用いたトレーニングにおける eos の存在理由が最近提案されているが、勾配降下軌道付近の平坦な極小とコンパクトな前方不変集合の存在が欠如している。
本稿では,2次損失関数の下で最適化された線形ニューラルネットワークが,第1の仮定および第2の仮定に必要な条件を満たすことを示す。
より正確には、勾配降下写像が非特異であることを証明し、損失関数の大域最小化の集合は滑らかな多様体を形成し、安定なミニマはパラメータ空間の有界部分集合を形成する。
さらに、ステップサイズが大きすぎると、勾配降下が臨界点に収束する初期化の集合は 0 となることが証明される。
関連論文リスト
- The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Gradient Descent Monotonically Decreases the Sharpness of Gradient Flow
Solutions in Scalar Networks and Beyond [30.545436106324203]
ニューラルネットワークにグラディエントDescentを適用すると、損失はほぼ単調に減少する。
代わりに、勾配勾配が「安定のエッジ」に収束するにつれて損失は振動する(EoS)。
論文 参考訳(メタデータ) (2023-05-22T14:27:27Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient descent provably escapes saddle points in the training of
shallow ReLU networks [3.0079490585515343]
関係する力学系の結果の変種、中心安定多様体定理を証明し、いくつかの正則性要件を緩和する。
アフィンターゲット関数に対して測定された浅部ReLUネットワークの2乗積分損失の臨界点の分類に基づいて、勾配降下がほとんどのサドル点を回避することを推定する。
論文 参考訳(メタデータ) (2022-08-03T14:08:52Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。
3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文 参考訳(メタデータ) (2021-08-04T13:10:30Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。