論文の概要: Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning
- arxiv url: http://arxiv.org/abs/2407.20209v2
- Date: Wed, 18 Sep 2024 17:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 22:42:16.600359
- Title: Characterizing Dynamical Stability of Stochastic Gradient Descent in Overparameterized Learning
- Title(参考訳): 過度パラメータ学習における確率的勾配の動的安定性のキャラクタリゼーション
- Authors: Dennis Chemnitz, Maximilian Engel,
- Abstract要約: 決定論的および勾配降下の両方に対して動的に安定かつ不安定な大域的ミニマを特徴づける。
特に、大域的最小値周辺の局所力学に依存する特徴的リアプノフ指数を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For overparameterized optimization tasks, such as the ones found in modern machine learning, global minima are generally not unique. In order to understand generalization in these settings, it is vital to study to which minimum an optimization algorithm converges. The possibility of having minima that are unstable under the dynamics imposed by the optimization algorithm limits the potential minima that the algorithm can find. In this paper, we characterize the global minima that are dynamically stable/unstable for both deterministic and stochastic gradient descent (SGD). In particular, we introduce a characteristic Lyapunov exponent which depends on the local dynamics around a global minimum and rigorously prove that the sign of this Lyapunov exponent determines whether SGD can accumulate at the respective global minimum.
- Abstract(参考訳): 現代の機械学習に見られるような過度にパラメータ化された最適化タスクの場合、グローバルなミニマは一般的にユニークではない。
これらの設定における一般化を理解するためには、最適化アルゴリズムがどの最小限に収束するかを研究することが不可欠である。
最適化アルゴリズムが課す力学の下で不安定なミニマを持つことは、アルゴリズムが見つけることのできる潜在的なミニマを制限する。
本稿では,決定的勾配降下(SGD)と確率的勾配降下(SGD)の両方に対して動的に安定かつ不安定な大域的最小値の特徴付けを行う。
特に、大域的極小付近の局所力学に依存する特徴的リャプノフ指数を導入し、このリャプノフ指数の符号が各大域的極小でSGDが蓄積できるかどうかを厳密に証明する。
関連論文リスト
- Super Gradient Descent: Global Optimization requires Global Gradient [0.0]
本稿では,閉区間上で定義される任意のk-Lipschitz関数に対して,大域最小値への収束を保証する新しい最適化手法を提案する。
従来の最適化アルゴリズムの限界に対処するアプローチは、しばしばローカルなミニマに閉じ込められる。
論文 参考訳(メタデータ) (2024-10-25T17:28:39Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials [15.718093624695552]
我々は、リアプノフポテンシャルと最適化に基づいて、グラディエント・ランゲヴィン・ダイナミクス(SGLD)のグローバル・ミニマへの収束を分析する。
2) SGLD に対する最初の有限勾配複雑性、3) 連続時間ランゲヴィンダイナミクスが最適化に成功するなら、次に離散時間 SGLD が穏やかな正則性仮定の下で成功することを証明する。
論文 参考訳(メタデータ) (2024-07-05T05:34:10Z) - A Universal Class of Sharpness-Aware Minimization Algorithms [57.29207151446387]
我々は、新しいシャープネス尺度を導入し、新しいシャープネス対応目標関数を導出する。
これらの測度がテキスト的に表現可能であることを証明し、トレーニング損失ヘッセン行列の任意の関数を適切なハイパーおよび行列式で表すことを可能にする。
論文 参考訳(メタデータ) (2024-06-06T01:52:09Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - A Local Convergence Theory for the Stochastic Gradient Descent Method in
Non-Convex Optimization With Non-isolated Local Minima [0.0]
非孤立ミニマは、未探索のままのユニークな挑戦を示す。
本稿では, 勾配降下法の非溶解大域ミニマへの局所収束について検討する。
論文 参考訳(メタデータ) (2022-03-21T13:33:37Z) - Stochastic gradient descent with noise of machine learning type. Part I:
Discrete time analysis [0.0]
勾配降下(SGD)は、現代の機械学習で最も人気のあるアルゴリズムの1つです。
本稿では,エネルギランドスケープの一般的な性質と,機械学習問題で発生するノイズについて論じる。
論文 参考訳(メタデータ) (2021-05-04T17:52:20Z) - Stochastic Gradient Langevin Dynamics with Variance Reduction [6.243995448840211]
勾配ランゲヴィンダイナミクス(SGLD)は、グローバル最適化研究者の注目を集めている。
本稿では,加速度特性の低減による非目的関数の改善を実証する。
論文 参考訳(メタデータ) (2021-02-12T20:22:56Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。