論文の概要: A Precise Characterization of SGD Stability Using Loss Surface Geometry
- arxiv url: http://arxiv.org/abs/2401.12332v1
- Date: Mon, 22 Jan 2024 19:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 17:43:54.639347
- Title: A Precise Characterization of SGD Stability Using Loss Surface Geometry
- Title(参考訳): ロス表面形状を用いたSGD安定性の高精度評価
- Authors: Gregory Dexter, Borja Ocejo, Sathiya Keerthi, Aman Gupta, Ayan
Acharya, Rajiv Khanna
- Abstract要約: Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
- 参考スコア(独自算出の注目度): 8.942671556572073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic Gradient Descent (SGD) stands as a cornerstone optimization
algorithm with proven real-world empirical successes but relatively limited
theoretical understanding. Recent research has illuminated a key factor
contributing to its practical efficacy: the implicit regularization it
instigates. Several studies have investigated the linear stability property of
SGD in the vicinity of a stationary point as a predictive proxy for sharpness
and generalization error in overparameterized neural networks (Wu et al., 2022;
Jastrzebski et al., 2019; Cohen et al., 2021). In this paper, we delve deeper
into the relationship between linear stability and sharpness. More
specifically, we meticulously delineate the necessary and sufficient conditions
for linear stability, contingent on hyperparameters of SGD and the sharpness at
the optimum. Towards this end, we introduce a novel coherence measure of the
loss Hessian that encapsulates pertinent geometric properties of the loss
function that are relevant to the linear stability of SGD. It enables us to
provide a simplified sufficient condition for identifying linear instability at
an optimum. Notably, compared to previous works, our analysis relies on
significantly milder assumptions and is applicable for a broader class of loss
functions than known before, encompassing not only mean-squared error but also
cross-entropy loss.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) は実世界の実証的な成功を証明したが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
過パラメータニューラルネットワーク(wu et al., 2022; jastrzebski et al., 2019; cohen et al., 2021)におけるシャープネスと一般化誤差の予測指標として、静止点近傍におけるsgdの線形安定性特性が研究されている。
本稿では,線形安定性とシャープネスの関係について考察する。
具体的には, 線形安定性, SGD のハイパーパラメータ, 最適のシャープネスについて, 必要かつ十分な条件を慎重に記述する。
この目的に向けて、SGDの線形安定性に関連する損失関数の関連する幾何学的性質をカプセル化するロス・ヘシアンの新しいコヒーレンス測度を導入する。
これにより、最適な線形不安定性を特定するための簡易な条件が提供される。
特筆すべきは,これまでの研究に比べてかなり軽度な仮定に依存しており,平均二乗誤差だけでなく,クロスエントロピー損失も含む,従来よりも幅広い損失関数に適用できる点である。
関連論文リスト
- Exact Mean Square Linear Stability Analysis for SGD [28.65663421598186]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - The Implicit Regularization of Dynamical Stability in Stochastic
Gradient Descent [32.25490196411385]
動的安定レンズによる勾配降下(SGD)の暗黙的正則化について検討する。
2層ReLUネットワークと対角線ネットワークの一般化特性を解析する。
論文 参考訳(メタデータ) (2023-05-27T14:54:21Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Stability of SGD: Tightness Analysis and Improved Bounds [8.831597193643628]
グラディエント・Descent(SGD)に基づく手法は、実際によく一般化された大規模機械学習モデルの訓練に広く用いられている。
解析[18]は滑らかな関数に対して厳密であり、そうでなければ、どのような損失とデータに対して、分析は改善できるのか?
論文 参考訳(メタデータ) (2021-02-10T05:43:27Z) - On the Stability Properties and the Optimization Landscape of Training
Problems with Squared Loss for Neural Networks and General Nonlinear Conic
Approximation Schemes [0.0]
ニューラルネットワークと一般的な非線形円錐近似スキームの2乗損失を伴うトレーニング問題の最適化景観と安定性特性について検討する。
これらの不安定性に寄与する同じ効果が、サドル点や急激な局所ミニマの出現の原因でもあることを証明している。
論文 参考訳(メタデータ) (2020-11-06T11:34:59Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。