論文の概要: Algorithmic Stability of Heavy-Tailed SGD with General Loss Functions
- arxiv url: http://arxiv.org/abs/2301.11885v1
- Date: Fri, 27 Jan 2023 17:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 14:42:24.639458
- Title: Algorithmic Stability of Heavy-Tailed SGD with General Loss Functions
- Title(参考訳): 一般損失関数をもつ重機SGDのアルゴリズム安定性
- Authors: Anant Raj and Lingjiong Zhu and Mert G\"urb\"uzbalaban and Umut
\c{S}im\c{s}ekli
- Abstract要約: ワッサースタイン降下(SGD)における重尾現象は、いくつかの経験的な観測が報告されている。
本稿では一般化関数と一般勾配関数のバウンダリを開発する。
彼らは最近、損失関数の一般性のおかげで、経験的な観測により多くの光を当てた。
- 参考スコア(独自算出の注目度): 13.431453056203226
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Heavy-tail phenomena in stochastic gradient descent (SGD) have been reported
in several empirical studies. Experimental evidence in previous works suggests
a strong interplay between the heaviness of the tails and generalization
behavior of SGD. To address this empirical phenomena theoretically, several
works have made strong topological and statistical assumptions to link the
generalization error to heavy tails. Very recently, new generalization bounds
have been proven, indicating a non-monotonic relationship between the
generalization error and heavy tails, which is more pertinent to the reported
empirical observations. While these bounds do not require additional
topological assumptions given that SGD can be modeled using a heavy-tailed
stochastic differential equation (SDE), they can only apply to simple quadratic
problems. In this paper, we build on this line of research and develop
generalization bounds for a more general class of objective functions, which
includes non-convex functions as well. Our approach is based on developing
Wasserstein stability bounds for heavy-tailed SDEs and their discretizations,
which we then convert to generalization bounds. Our results do not require any
nontrivial assumptions; yet, they shed more light to the empirical
observations, thanks to the generality of the loss functions.
- Abstract(参考訳): 確率勾配降下 (sgd) における重テール現象はいくつかの実験研究で報告されている。
前回の研究では、尾の重みとSGDの一般化行動の間に強い相互作用があることが示されている。
この経験的現象に理論的に対処するために、いくつかの研究は、一般化誤差を重尾にリンクする強い位相的および統計的仮定を行った。
ごく最近、新しい一般化境界が証明され、一般化誤差と重い尾との非単調な関係が示され、これは報告された経験的観測とより関連がある。
これらの境界は、重尾確率微分方程式(SDE)を用いてSGDをモデル化できるという追加の位相的仮定を必要としないが、単純な二次問題にのみ適用できる。
本稿では、この研究の線上に構築し、非凸関数を含むより一般的な目的関数のクラスに対する一般化境界を開発する。
我々のアプローチは、重み付きSDEとその離散化に対するワッサーシュタイン安定境界の開発に基づいており、それが一般化境界に変換される。
我々の結果は非自明な仮定を必要としないが、損失関数の一般性のおかげで経験的な観測により多くの光を当てた。
関連論文リスト
- Equivariance and partial observations in Koopman operator theory for partial differential equations [1.099532646524593]
システム力学の対称性はクープマン作用素に受け継がれることを示す。
我々は、完全な状態を測定することができない非常に関連性の高いケースに対処する。
論文 参考訳(メタデータ) (2023-07-28T06:03:19Z) - Large deviations rates for stochastic gradient descent with strongly
convex functions [11.247580943940916]
勾配降下を伴う一般高確率境界の研究のための公式な枠組みを提供する。
強い凸関数を持つSGDの上限となる大きな偏差が見つかる。
論文 参考訳(メタデータ) (2022-11-02T09:15:26Z) - Algorithmic Stability of Heavy-Tailed Stochastic Gradient Descent on
Least Squares [12.2950446921662]
近年の研究では、重い尾が最適化において出現し、尾の重みが一般化誤差と関連していることが示されている。
アルゴリズム安定性のレンズによる勾配降下(SGD)のテール挙動と一般化特性の新たなリンクを確立する。
我々は、合成および実際のニューラルネットワーク実験で理論を支持する。
論文 参考訳(メタデータ) (2022-06-02T19:59:48Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Generalization Bounds for Stochastic Gradient Langevin Dynamics: A
Unified View via Information Leakage Analysis [49.402932368689775]
プライバシリーク解析からSGLDのバウンダリを解析するための統一的な一般化を提案する。
また,情報漏洩問題SGLDを評価するために,様々な数値最小化を行う。
論文 参考訳(メタデータ) (2021-12-14T06:45:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Global Convergence and Stability of Stochastic Gradient Descent [0.0]
我々は,SGDがほぼ任意の非特異性および雑音モデルの下で定常点に収束することを示す。
我々は,SGDがグローバルな信頼の収束に関する様々な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-10-04T19:00:50Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。