論文の概要: The Probabilistic Stability of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2303.13093v1
- Date: Thu, 23 Mar 2023 08:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:12:51.150297
- Title: The Probabilistic Stability of Stochastic Gradient Descent
- Title(参考訳): 確率的勾配降下の確率的安定性
- Authors: Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda
- Abstract要約: ディープラーニング理論における基本的なオープン問題は、勾配降下(SGD)の安定性を定義し、理解する方法である。
確率安定性のレンズの下でのみ、SGDは学習のリッチで実践的なフェーズを示すことを示す。
我々の研究は、学習アルゴリズムがディープラーニングの学習結果にどのように影響するかという根本的な問題に対処するための新たな場所を開く可能性がある。
- 参考スコア(独自算出の注目度): 12.856037831335993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental open problem in deep learning theory is how to define and
understand the stability of stochastic gradient descent (SGD) close to a fixed
point. Conventional literature relies on the convergence of statistical
moments, esp., the variance, of the parameters to quantify the stability. We
revisit the definition of stability for SGD and use the \textit{convergence in
probability} condition to define the \textit{probabilistic stability} of SGD.
The proposed stability directly answers a fundamental question in deep learning
theory: how SGD selects a meaningful solution for a neural network from an
enormous number of solutions that may overfit badly. To achieve this, we show
that only under the lens of probabilistic stability does SGD exhibit rich and
practically relevant phases of learning, such as the phases of the complete
loss of stability, incorrect learning, convergence to low-rank saddles, and
correct learning. When applied to a neural network, these phase diagrams imply
that SGD prefers low-rank saddles when the underlying gradient is noisy,
thereby improving the learning performance. This result is in sharp contrast to
the conventional wisdom that SGD prefers flatter minima to sharp ones, which we
find insufficient to explain the experimental data. We also prove that the
probabilistic stability of SGD can be quantified by the Lyapunov exponents of
the SGD dynamics, which can easily be measured in practice. Our work
potentially opens a new venue for addressing the fundamental question of how
the learning algorithm affects the learning outcome in deep learning.
- Abstract(参考訳): ディープラーニング理論における根本的なオープン問題は、確率勾配降下(SGD)の安定性を定点近くで定義し、理解する方法である。
従来の文献は、統計モーメント、例えば、安定性を定量化するためのパラメータの分散の収束に依存している。
SGD の安定性の定義を再検討し、SGD の \textit{probabilistic stability} を定義するために、確率条件の \textit{convergence を用いる。
提案された安定性は、ディープラーニング理論の根本的な問題に直結する。SGDは、膨大な数の解からニューラルネットワークの有意義な解をどうやって選択するか。
これを達成するために,確率安定性のレンズの下でのみ,SGDは,安定性の完全損失の位相,誤学習,低級サドルへの収束,正しい学習といった,豊かな,実践的な学習段階を示すことを示す。
ニューラルネットワークに適用すると、これらの位相図は、下位勾配がノイズである場合、sgdが低ランクサドルを好むことを暗示し、学習性能を向上させる。
この結果は、sgdがシャープなデータよりもフラットなミニマを好むという従来の考え方とは対照的であり、実験データを説明するには不十分である。
また,sgdの確率安定性は,実際に容易に測定できるsgdダイナミクスのリアプノフ指数によって定量化できることを示した。
我々の研究は、ディープラーニングの学習結果に学習アルゴリズムがどのように影響するかという根本的な問題に対処するための新しい場所を開く可能性がある。
関連論文リスト
- A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Stability and Generalization of Stochastic Compositional Gradient
Descent Algorithms [61.59448949684493]
学習例から構築した合成降下アルゴリズムの安定性と一般化解析について述べる。
SCGD と SCSC という2つの一般的な合成勾配勾配勾配アルゴリズムの均一安定性について検討した。
SCGD と SCSC の非依存的過剰リスク境界は,安定性結果と最適化誤差をトレードオフすることによって導出する。
論文 参考訳(メタデータ) (2023-07-07T02:40:09Z) - Stability Analysis Framework for Particle-based Distance GANs with
Wasserstein Gradient Flow [14.783344918500813]
粒子ベース距離と呼ばれる確率密度距離を目的関数として用いた生成ネットワークの学習過程について検討する。
GANの$min_G max_D E(G, D)$の定式化により、判別器のトレーニングプロセスは通常不安定である。
論文 参考訳(メタデータ) (2023-07-04T18:49:34Z) - Exact Mean Square Linear Stability Analysis for SGD [33.85401713613341]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Decoding probabilistic syndrome measurement and the role of entropy [0.0]
確率安定化器測定モデルに基づくトーリック符号の性能について検討した。
我々は、完全に連続したシンドローム抽出モデルの下でも、デコーダを適宜修正することで、閾値が1.69%の合理的に高い値で維持できることを発見した。
論文 参考訳(メタデータ) (2023-02-22T20:12:48Z) - Numerically Stable Sparse Gaussian Processes via Minimum Separation
using Cover Trees [57.67528738886731]
誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。
地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T15:20:17Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。