論文の概要: The Probabilistic Stability of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2303.13093v2
- Date: Tue, 3 Oct 2023 13:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 10:37:32.120756
- Title: The Probabilistic Stability of Stochastic Gradient Descent
- Title(参考訳): 確率的勾配降下の確率的安定性
- Authors: Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda
- Abstract要約: SGD(Gradient Descent)の安定性を特徴づけ、理解することは、ディープラーニングにおいて未解決の問題である。
本稿では,SGD の $textitprobabilistic stability$ を定義するために,確率$条件における $textitconvergence を用いることを提案する。
得られた位相図は、下層の指数がうるさいとき、SGDがニューラルネットワークの低ランクサドルを好むことを示唆している。
- 参考スコア(独自算出の注目度): 18.406732869507085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characterizing and understanding the stability of Stochastic Gradient Descent
(SGD) remains an open problem in deep learning. A common method is to utilize
the convergence of statistical moments, esp. the variance, of the parameters to
quantify the stability. We revisit the definition of stability for SGD and
propose using the $\textit{convergence in probability}$ condition to define the
$\textit{probabilistic stability}$ of SGD. The probabilistic stability sheds
light on a fundamental question in deep learning theory: how SGD selects a
meaningful solution for a neural network from an enormous number of possible
solutions that may severely overfit. We show that only through the lens of
probabilistic stability does SGD exhibit rich and practically relevant phases
of learning, such as the phases of the complete loss of stability, incorrect
learning where the model captures incorrect data correlation, convergence to
low-rank saddles, and correct learning where the model captures the correct
correlation. These phase boundaries are precisely quantified by the Lyapunov
exponents of the dynamics. The obtained phase diagrams imply that SGD prefers
low-rank saddles in a neural network when the underlying gradient is noisy,
thereby influencing the learning performance.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)の安定性を特徴づけ、理解することは、ディープラーニングにおいて未解決の問題である。
一般的な方法は、統計モーメント、例えばパラメータの分散の収束を利用して安定性を定量化することである。
SGD の安定性の定義を再検討し、SGD の $\textit{probabilistic stability}$ を定義するために $\textit{convergence in probability}$条件を使うことを提案する。
確率的安定性は、sgdがニューラルネットワークにとって有意義なソリューションをどのように選択するかという、深層学習理論の基本的な問題に光を当てている。
確率的安定性のレンズを通してのみsgdは、安定性の完全な損失のフェーズ、モデルが不正確なデータ相関をキャプチャする不正確な学習、低ランクのサドルへの収束、モデルが正しい相関をキャプチャする正しい学習といった学習の豊かで実際に関連するフェーズを示す。
これらの位相境界は力学のリャプノフ指数によって正確に定量される。
得られた位相図は、基礎となる勾配がノイズの多いニューラルネットワークにおいて、SGDが低ランクサドルを好むことを示唆し、学習性能に影響を与える。
関連論文リスト
- Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。
また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the
Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。
SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-15T18:53:41Z) - Slow semiclassical dynamics of a two-dimensional Hubbard model in
disorder-free potentials [77.34726150561087]
調和およびスピン依存線形ポテンシャルの導入は、fTWAを長期間にわたって十分に検証することを示した。
特に、有限2次元系に着目し、中間線形ポテンシャル強度において、高調波ポテンシャルの追加と傾きのスピン依存が、亜拡散力学をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T16:51:25Z) - A constrained gentlest ascent dynamics and its applications to finding
excited states of Bose-Einstein condensates [6.6772808699409705]
提案したCGADの線形安定状態は、Morse指数が対応する非退化制約サドル点であることを示す。
CGADは、モース指数の順に単成分アインシュタイン凝縮(BEC)の励起状態を見つけるために適用される。
論文 参考訳(メタデータ) (2022-09-10T15:09:07Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Phase diagram of Rydberg-dressed atoms on two-leg square ladders:
Coupling supersymmetric conformal field theories on the lattice [52.77024349608834]
柔らかいショルダーポテンシャルが存在する場合の硬心ボソンの位相図について検討する。
局所項と非局所項の競合が、支配的なクラスター、スピン、密度波準長距離秩序を持つ液体相を持つ相図をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2021-12-20T09:46:08Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Escaping Saddle Points with Stochastically Controlled Stochastic
Gradient Methods [12.173568611144626]
騒音やステップによって1次サドル勾配降下法(SCSG)が摂動可能であることを示す。
この問題を解決するために、別のステップが提案される。
提案手法は,サドル点に対するCNC-SCSGD法をさらに取り入れることを目的としている。
論文 参考訳(メタデータ) (2021-03-07T18:09:43Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。