論文の概要: The Probabilistic Stability of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2303.13093v1
- Date: Thu, 23 Mar 2023 08:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:12:51.150297
- Title: The Probabilistic Stability of Stochastic Gradient Descent
- Title(参考訳): 確率的勾配降下の確率的安定性
- Authors: Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda
- Abstract要約: ディープラーニング理論における基本的なオープン問題は、勾配降下(SGD)の安定性を定義し、理解する方法である。
確率安定性のレンズの下でのみ、SGDは学習のリッチで実践的なフェーズを示すことを示す。
我々の研究は、学習アルゴリズムがディープラーニングの学習結果にどのように影響するかという根本的な問題に対処するための新たな場所を開く可能性がある。
- 参考スコア(独自算出の注目度): 12.856037831335993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental open problem in deep learning theory is how to define and
understand the stability of stochastic gradient descent (SGD) close to a fixed
point. Conventional literature relies on the convergence of statistical
moments, esp., the variance, of the parameters to quantify the stability. We
revisit the definition of stability for SGD and use the \textit{convergence in
probability} condition to define the \textit{probabilistic stability} of SGD.
The proposed stability directly answers a fundamental question in deep learning
theory: how SGD selects a meaningful solution for a neural network from an
enormous number of solutions that may overfit badly. To achieve this, we show
that only under the lens of probabilistic stability does SGD exhibit rich and
practically relevant phases of learning, such as the phases of the complete
loss of stability, incorrect learning, convergence to low-rank saddles, and
correct learning. When applied to a neural network, these phase diagrams imply
that SGD prefers low-rank saddles when the underlying gradient is noisy,
thereby improving the learning performance. This result is in sharp contrast to
the conventional wisdom that SGD prefers flatter minima to sharp ones, which we
find insufficient to explain the experimental data. We also prove that the
probabilistic stability of SGD can be quantified by the Lyapunov exponents of
the SGD dynamics, which can easily be measured in practice. Our work
potentially opens a new venue for addressing the fundamental question of how
the learning algorithm affects the learning outcome in deep learning.
- Abstract(参考訳): ディープラーニング理論における根本的なオープン問題は、確率勾配降下(SGD)の安定性を定点近くで定義し、理解する方法である。
従来の文献は、統計モーメント、例えば、安定性を定量化するためのパラメータの分散の収束に依存している。
SGD の安定性の定義を再検討し、SGD の \textit{probabilistic stability} を定義するために、確率条件の \textit{convergence を用いる。
提案された安定性は、ディープラーニング理論の根本的な問題に直結する。SGDは、膨大な数の解からニューラルネットワークの有意義な解をどうやって選択するか。
これを達成するために,確率安定性のレンズの下でのみ,SGDは,安定性の完全損失の位相,誤学習,低級サドルへの収束,正しい学習といった,豊かな,実践的な学習段階を示すことを示す。
ニューラルネットワークに適用すると、これらの位相図は、下位勾配がノイズである場合、sgdが低ランクサドルを好むことを暗示し、学習性能を向上させる。
この結果は、sgdがシャープなデータよりもフラットなミニマを好むという従来の考え方とは対照的であり、実験データを説明するには不十分である。
また,sgdの確率安定性は,実際に容易に測定できるsgdダイナミクスのリアプノフ指数によって定量化できることを示した。
我々の研究は、ディープラーニングの学習結果に学習アルゴリズムがどのように影響するかという根本的な問題に対処するための新しい場所を開く可能性がある。
関連論文リスト
- Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。
また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the
Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。
SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-15T18:53:41Z) - Slow semiclassical dynamics of a two-dimensional Hubbard model in
disorder-free potentials [77.34726150561087]
調和およびスピン依存線形ポテンシャルの導入は、fTWAを長期間にわたって十分に検証することを示した。
特に、有限2次元系に着目し、中間線形ポテンシャル強度において、高調波ポテンシャルの追加と傾きのスピン依存が、亜拡散力学をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-03T16:51:25Z) - A constrained gentlest ascent dynamics and its applications to finding
excited states of Bose-Einstein condensates [6.6772808699409705]
提案したCGADの線形安定状態は、Morse指数が対応する非退化制約サドル点であることを示す。
CGADは、モース指数の順に単成分アインシュタイン凝縮(BEC)の励起状態を見つけるために適用される。
論文 参考訳(メタデータ) (2022-09-10T15:09:07Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Phase diagram of Rydberg-dressed atoms on two-leg square ladders:
Coupling supersymmetric conformal field theories on the lattice [52.77024349608834]
柔らかいショルダーポテンシャルが存在する場合の硬心ボソンの位相図について検討する。
局所項と非局所項の競合が、支配的なクラスター、スピン、密度波準長距離秩序を持つ液体相を持つ相図をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2021-12-20T09:46:08Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Escaping Saddle Points with Stochastically Controlled Stochastic
Gradient Methods [12.173568611144626]
騒音やステップによって1次サドル勾配降下法(SCSG)が摂動可能であることを示す。
この問題を解決するために、別のステップが提案される。
提案手法は,サドル点に対するCNC-SCSGD法をさらに取り入れることを目的としている。
論文 参考訳(メタデータ) (2021-03-07T18:09:43Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。