論文の概要: The Probabilistic Stability of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2303.13093v2
- Date: Tue, 3 Oct 2023 13:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 10:37:32.120756
- Title: The Probabilistic Stability of Stochastic Gradient Descent
- Title(参考訳): 確率的勾配降下の確率的安定性
- Authors: Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda
- Abstract要約: SGD(Gradient Descent)の安定性を特徴づけ、理解することは、ディープラーニングにおいて未解決の問題である。
本稿では,SGD の $textitprobabilistic stability$ を定義するために,確率$条件における $textitconvergence を用いることを提案する。
得られた位相図は、下層の指数がうるさいとき、SGDがニューラルネットワークの低ランクサドルを好むことを示唆している。
- 参考スコア(独自算出の注目度): 18.406732869507085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Characterizing and understanding the stability of Stochastic Gradient Descent
(SGD) remains an open problem in deep learning. A common method is to utilize
the convergence of statistical moments, esp. the variance, of the parameters to
quantify the stability. We revisit the definition of stability for SGD and
propose using the $\textit{convergence in probability}$ condition to define the
$\textit{probabilistic stability}$ of SGD. The probabilistic stability sheds
light on a fundamental question in deep learning theory: how SGD selects a
meaningful solution for a neural network from an enormous number of possible
solutions that may severely overfit. We show that only through the lens of
probabilistic stability does SGD exhibit rich and practically relevant phases
of learning, such as the phases of the complete loss of stability, incorrect
learning where the model captures incorrect data correlation, convergence to
low-rank saddles, and correct learning where the model captures the correct
correlation. These phase boundaries are precisely quantified by the Lyapunov
exponents of the dynamics. The obtained phase diagrams imply that SGD prefers
low-rank saddles in a neural network when the underlying gradient is noisy,
thereby influencing the learning performance.
- Abstract(参考訳): SGD(Stochastic Gradient Descent)の安定性を特徴づけ、理解することは、ディープラーニングにおいて未解決の問題である。
一般的な方法は、統計モーメント、例えばパラメータの分散の収束を利用して安定性を定量化することである。
SGD の安定性の定義を再検討し、SGD の $\textit{probabilistic stability}$ を定義するために $\textit{convergence in probability}$条件を使うことを提案する。
確率的安定性は、sgdがニューラルネットワークにとって有意義なソリューションをどのように選択するかという、深層学習理論の基本的な問題に光を当てている。
確率的安定性のレンズを通してのみsgdは、安定性の完全な損失のフェーズ、モデルが不正確なデータ相関をキャプチャする不正確な学習、低ランクのサドルへの収束、モデルが正しい相関をキャプチャする正しい学習といった学習の豊かで実際に関連するフェーズを示す。
これらの位相境界は力学のリャプノフ指数によって正確に定量される。
得られた位相図は、基礎となる勾配がノイズの多いニューラルネットワークにおいて、SGDが低ランクサドルを好むことを示唆し、学習性能に影響を与える。
関連論文リスト
- A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient
Descent Under Heavy-tailed Noise [62.227421825689895]
本研究では, 広帯域非線形SGD法における収束境界テクスタイチン高確率について検討する。
リプシッツ連続勾配の強い凸損失関数に対して、ノイズが重く抑えられた場合でも、故障確率に対数依存があることを証明する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Stability Analysis Framework for Particle-based Distance GANs with
Wasserstein Gradient Flow [14.783344918500813]
粒子ベース距離と呼ばれる確率密度距離を目的関数として用いた生成ネットワークの学習過程について検討する。
GANの$min_G max_D E(G, D)$の定式化により、判別器のトレーニングプロセスは通常不安定である。
論文 参考訳(メタデータ) (2023-07-04T18:49:34Z) - Exact Mean Square Linear Stability Analysis for SGD [33.85401713613341]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Decoding probabilistic syndrome measurement and the role of entropy [0.0]
確率安定化器測定モデルに基づくトーリック符号の性能について検討した。
我々は、完全に連続したシンドローム抽出モデルの下でも、デコーダを適宜修正することで、閾値が1.69%の合理的に高い値で維持できることを発見した。
論文 参考訳(メタデータ) (2023-02-22T20:12:48Z) - Numerically Stable Sparse Gaussian Processes via Minimum Separation
using Cover Trees [57.67528738886731]
誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。
地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T15:20:17Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。