Fugu-MT 論文翻訳(概要): On the Stability of Gradient Descent for Large Learning Rate

論文の概要: On the Stability of Gradient Descent for Large Learning Rate

arxiv url: http://arxiv.org/abs/2402.13108v1
Date: Tue, 20 Feb 2024 16:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 14:28:13.271899
Title: On the Stability of Gradient Descent for Large Learning Rate
Title（参考訳）: 大規模学習におけるグラディエントDescentの安定性について
Authors: Alexandru Cr\u{a}ciun, Debarghya Ghoshdastidar
Abstract要約: ニューラルネットワークトレーニングにおいて、エッジ・オブ・安定性(EoS)は、エポック上での損失関数の非単調な減少を特徴とする。 2次損失関数の下で最適化された線形ニューラルネットワークは、第1の仮定および第2の仮定に必要な条件を満たすことを示す。
参考スコア（独自算出の注目度）: 62.19241612132701
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There currently is a significant interest in understanding the Edge of Stability (EoS) phenomenon, which has been observed in neural networks training, characterized by a non-monotonic decrease of the loss function over epochs, while the sharpness of the loss (spectral norm of the Hessian) progressively approaches and stabilizes around 2/(learning rate). Reasons for the existence of EoS when training using gradient descent have recently been proposed -- a lack of flat minima near the gradient descent trajectory together with the presence of compact forward-invariant sets. In this paper, we show that linear neural networks optimized under a quadratic loss function satisfy the first assumption and also a necessary condition for the second assumption. More precisely, we prove that the gradient descent map is non-singular, the set of global minimizers of the loss function forms a smooth manifold, and the stable minima form a bounded subset in parameter space. Additionally, we prove that if the step-size is too big, then the set of initializations from which gradient descent converges to a critical point has measure zero.
Abstract（参考訳）: 現在、ニューラルネットワークのトレーニングで観察されている安定性のエッジ(eos)現象を理解することには、エポックに対する損失関数の非単調な減少が特徴であり、損失の鋭さ(ヘッセンのスペクトルノルム)は徐々に2/(学習率)前後に接近して安定化している。勾配降下を用いたトレーニングにおける eos の存在理由が最近提案されているが、勾配降下軌道付近の平坦な極小とコンパクトな前方不変集合の存在が欠如している。本稿では,2次損失関数の下で最適化された線形ニューラルネットワークが,第1の仮定および第2の仮定に必要な条件を満たすことを示す。より正確には、勾配降下写像が非特異であることを証明し、損失関数の大域最小化の集合は滑らかな多様体を形成し、安定なミニマはパラメータ空間の有界部分集合を形成する。さらに、ステップサイズが大きすぎると、勾配降下が臨界点に収束する初期化の集合は 0 となることが証明される。

関連論文リスト

SAD Neural Networks: Divergent Gradient Flows and Asymptotic Optimality via o-minimal Structures [3.3123773366516645]
本研究は, 連続的な微分可能活性化関数を持つ完全連結フィードフォワードニューラルネットワークの損失景観に対する勾配流について検討する。勾配流が臨界点に収束するか、損失が臨界値に収束している間に無限大に分岐することを示す。
論文参考訳（メタデータ） (2025-05-14T17:15:11Z)
Good regularity creates large learning rate implicit biases: edge of stability, balancing, and catapult [49.8719617899285]
非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
論文参考訳（メタデータ） (2023-10-26T01:11:17Z)
Implicit Bias of Gradient Descent for Logistic Regression at the Edge of Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文参考訳（メタデータ） (2023-05-19T16:24:47Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Understanding the unstable convergence of gradient descent [51.40523554349091]
機械学習アプリケーションでは、ステップサイズが$L$-smoothコストの場合、ステップサイズは2/L$未満である、という条件を満たさないことが多い。我々は、この不安定収束現象を第一原理から検討し、その背景にある主要な原因を解明する。我々はまた、その主な特徴とそれらの相互関係を識別し、理論と実験の両方に裏打ちされた透明なビューを提供する。
論文参考訳（メタデータ） (2022-04-03T11:10:17Z)
On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。エルゴード理論の力学系に基づく新しい視点を提案する。
論文参考訳（メタデータ） (2021-10-12T18:12:23Z)
Convergence of gradient descent for learning linear neural networks [2.209921757303168]
勾配勾配勾配は損失関数の臨界点,すなわち本論文の平方損失に収束することを示す。 3層以上の層の場合、勾配勾配は、ある固定階数の多様体行列上の大域最小値に収束することを示す。
論文参考訳（メタデータ） (2021-08-04T13:10:30Z)
Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文参考訳（メタデータ） (2021-07-14T10:59:57Z)
Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文参考訳（メタデータ） (2020-11-23T07:50:09Z)
Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文参考訳（メタデータ） (2020-02-12T09:22:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。