論文の概要: Understanding the unstable convergence of gradient descent
- arxiv url: http://arxiv.org/abs/2204.01050v1
- Date: Sun, 3 Apr 2022 11:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 08:31:48.472546
- Title: Understanding the unstable convergence of gradient descent
- Title(参考訳): 勾配降下の不安定収束を理解する
- Authors: Kwangjun Ahn, Jingzhao Zhang, Suvrit Sra
- Abstract要約: 機械学習アプリケーションでは、ステップサイズが$L$-smoothコストの場合、ステップサイズは2/L$未満である、という条件を満たさないことが多い。
我々は、この不安定収束現象を第一原理から検討し、その背景にある主要な原因を解明する。
我々はまた、その主な特徴とそれらの相互関係を識別し、理論と実験の両方に裏打ちされた透明なビューを提供する。
- 参考スコア(独自算出の注目度): 51.40523554349091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing analyses of (stochastic) gradient descent rely on the condition
that for $L$-smooth cost, the step size is less than $2/L$. However, many works
have observed that in machine learning applications step sizes often do not
fulfill this condition, yet (stochastic) gradient descent converges, albeit in
an unstable manner. We investigate this unstable convergence phenomenon from
first principles, and elucidate key causes behind it. We also identify its main
characteristics, and how they interrelate, offering a transparent view backed
by both theory and experiments.
- Abstract(参考訳): 既存の(統計的)勾配降下の分析のほとんどは、l$-smoothコストに対して、ステップサイズが2/l$未満である条件に依存している。
しかし、機械学習アプリケーションではステップサイズはしばしばこの条件を満たさないが、(確率的な)勾配降下は不安定な方法で収束する。
まず,不安定な収束現象を第一原理から検討し,その背後にある主要な原因を明らかにする。
また、その主特性とそれらの相互関係を識別し、理論と実験の両方に裏付けられた透明な視点を提供する。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the
Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。
SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-15T18:53:41Z) - Self-Stabilization: The Implicit Bias of Gradient Descent at the Edge of
Stability [40.17821914923602]
安定性の端における勾配降下は、制約$S(theta) le 2/eta$ の下で、投影勾配降下 (PGD) に暗黙的に従うことを示す。
本分析は, PGD軌道からの損失, 鋭さ, 偏差を, トレーニングを通して正確に予測する。
論文 参考訳(メタデータ) (2022-09-30T17:15:12Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Stability and Generalization of Stochastic Gradient Methods for Minimax
Problems [71.60601421935844]
多くの機械学習問題は、GAN(Generative Adversarial Networks)のようなミニマックス問題として定式化できる。
ミニマックス問題に対するトレーニング勾配法から例を包括的に一般化解析する。
論文 参考訳(メタデータ) (2021-05-08T22:38:00Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z) - Explore Aggressively, Update Conservatively: Stochastic Extragradient
Methods with Variable Stepsize Scaling [34.35013145885164]
機械学習における大規模サドルポイント問題の解法としては、段階的な手法が必須となっている。
本稿では, 単純な双線形モデルであっても, 勾配によるバニラの過度な走行は収束を阻害する可能性があることを示す。
この修正により勾配にも収束でき、誤差境界条件下での鋭い収束率を導出できることを示す。
論文 参考訳(メタデータ) (2020-03-23T10:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。