Fugu-MT 論文翻訳(概要): The Probabilistic Stability of Stochastic Gradient Descent

論文の概要: The Probabilistic Stability of Stochastic Gradient Descent

arxiv url: http://arxiv.org/abs/2303.13093v1
Date: Thu, 23 Mar 2023 08:17:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 15:12:51.150297
Title: The Probabilistic Stability of Stochastic Gradient Descent
Title（参考訳）: 確率的勾配降下の確率的安定性
Authors: Liu Ziyin, Botao Li, Tomer Galanti, Masahito Ueda
Abstract要約: ディープラーニング理論における基本的なオープン問題は、勾配降下(SGD)の安定性を定義し、理解する方法である。確率安定性のレンズの下でのみ、SGDは学習のリッチで実践的なフェーズを示すことを示す。我々の研究は、学習アルゴリズムがディープラーニングの学習結果にどのように影響するかという根本的な問題に対処するための新たな場所を開く可能性がある。
参考スコア（独自算出の注目度）: 12.856037831335993
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A fundamental open problem in deep learning theory is how to define and understand the stability of stochastic gradient descent (SGD) close to a fixed point. Conventional literature relies on the convergence of statistical moments, esp., the variance, of the parameters to quantify the stability. We revisit the definition of stability for SGD and use the \textit{convergence in probability} condition to define the \textit{probabilistic stability} of SGD. The proposed stability directly answers a fundamental question in deep learning theory: how SGD selects a meaningful solution for a neural network from an enormous number of solutions that may overfit badly. To achieve this, we show that only under the lens of probabilistic stability does SGD exhibit rich and practically relevant phases of learning, such as the phases of the complete loss of stability, incorrect learning, convergence to low-rank saddles, and correct learning. When applied to a neural network, these phase diagrams imply that SGD prefers low-rank saddles when the underlying gradient is noisy, thereby improving the learning performance. This result is in sharp contrast to the conventional wisdom that SGD prefers flatter minima to sharp ones, which we find insufficient to explain the experimental data. We also prove that the probabilistic stability of SGD can be quantified by the Lyapunov exponents of the SGD dynamics, which can easily be measured in practice. Our work potentially opens a new venue for addressing the fundamental question of how the learning algorithm affects the learning outcome in deep learning.
Abstract（参考訳）: ディープラーニング理論における根本的なオープン問題は、確率勾配降下(SGD)の安定性を定点近くで定義し、理解する方法である。従来の文献は、統計モーメント、例えば、安定性を定量化するためのパラメータの分散の収束に依存している。 SGD の安定性の定義を再検討し、SGD の \textit{probabilistic stability} を定義するために、確率条件の \textit{convergence を用いる。提案された安定性は、ディープラーニング理論の根本的な問題に直結する。SGDは、膨大な数の解からニューラルネットワークの有意義な解をどうやって選択するか。これを達成するために,確率安定性のレンズの下でのみ,SGDは,安定性の完全損失の位相,誤学習,低級サドルへの収束,正しい学習といった,豊かな,実践的な学習段階を示すことを示す。ニューラルネットワークに適用すると、これらの位相図は、下位勾配がノイズである場合、sgdが低ランクサドルを好むことを暗示し、学習性能を向上させる。この結果は、sgdがシャープなデータよりもフラットなミニマを好むという従来の考え方とは対照的であり、実験データを説明するには不十分である。また,sgdの確率安定性は,実際に容易に測定できるsgdダイナミクスのリアプノフ指数によって定量化できることを示した。我々の研究は、ディープラーニングの学習結果に学習アルゴリズムがどのように影響するかという根本的な問題に対処するための新しい場所を開く可能性がある。

関連論文リスト

Stochastic Weakly Convex Optimization Under Heavy-Tailed Noises [55.43924214633558]
本稿では,サブワイブルノイズとSsBCノイズの2種類のノイズに着目した。これら2つのノイズ仮定の下では、凸最適化と滑らかな最適化の文脈において、SFOMの不規則および高確率収束が研究されている。
論文参考訳（メタデータ） (2025-07-17T16:48:45Z)
Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文参考訳（メタデータ） (2024-02-04T02:48:28Z)
Doubly Stochastic Models: Learning with Unbiased Label Noises and Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文参考訳（メタデータ） (2023-04-01T14:09:07Z)
Almost Sure Saddle Avoidance of Stochastic Gradient Methods without the Bounded Gradient Assumption [11.367487348673793]
勾配勾配降下法(SGD)、重ボール法(SHB)、ネステロフ加速勾配法(SNAG)など、様々な勾配勾配降下法が、厳密なサドル多様体をほぼ確実に避けていることを示す。 SHB法とSNAG法でこのような結果が得られたのはこれが初めてである。
論文参考訳（メタデータ） (2023-02-15T18:53:41Z)
SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文参考訳（メタデータ） (2022-10-11T11:00:04Z)
Slow semiclassical dynamics of a two-dimensional Hubbard model in disorder-free potentials [77.34726150561087]
調和およびスピン依存線形ポテンシャルの導入は、fTWAを長期間にわたって十分に検証することを示した。特に、有限2次元系に着目し、中間線形ポテンシャル強度において、高調波ポテンシャルの追加と傾きのスピン依存が、亜拡散力学をもたらすことを示す。
論文参考訳（メタデータ） (2022-10-03T16:51:25Z)
A constrained gentlest ascent dynamics and its applications to finding excited states of Bose-Einstein condensates [6.6772808699409705]
提案したCGADの線形安定状態は、Morse指数が対応する非退化制約サドル点であることを示す。 CGADは、モース指数の順に単成分アインシュタイン凝縮(BEC)の励起状態を見つけるために適用される。
論文参考訳（メタデータ） (2022-09-10T15:09:07Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
Phase diagram of Rydberg-dressed atoms on two-leg square ladders: Coupling supersymmetric conformal field theories on the lattice [52.77024349608834]
柔らかいショルダーポテンシャルが存在する場合の硬心ボソンの位相図について検討する。局所項と非局所項の競合が、支配的なクラスター、スピン、密度波準長距離秩序を持つ液体相を持つ相図をいかに生み出すかを示す。
論文参考訳（メタデータ） (2021-12-20T09:46:08Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Escaping Saddle Points with Stochastically Controlled Stochastic Gradient Methods [12.173568611144626]
騒音やステップによって1次サドル勾配降下法(SCSG)が摂動可能であることを示す。この問題を解決するために、別のステップが提案される。提案手法は,サドル点に対するCNC-SCSGD法をさらに取り入れることを目的としている。
論文参考訳（メタデータ） (2021-03-07T18:09:43Z)
Fine-Grained Analysis of Stability and Generalization for Stochastic Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文参考訳（メタデータ） (2020-06-15T06:30:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。