論文の概要: Two Facets of SDE Under an Information-Theoretic Lens: Generalization of SGD via Training Trajectories and via Terminal States
- arxiv url: http://arxiv.org/abs/2211.10691v2
- Date: Sat, 8 Jun 2024 02:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 06:08:09.398611
- Title: Two Facets of SDE Under an Information-Theoretic Lens: Generalization of SGD via Training Trajectories and via Terminal States
- Title(参考訳): 情報理論レンズによるSDEの2面:訓練軌道と終端状態によるSGDの一般化
- Authors: Ziqiao Wang, Yongyi Mao,
- Abstract要約: 本研究では,SGDを用いた機械学習モデルの学習力学について検討する。
我々は、Xu と Raginsky からの情報理論境界を用いて、軌道に基づく一般化を求める。
提案した境界にはいくつかの利点があり、特に Wang と Mao [2022] の軌道に基づく境界出力は、安定性に基づく境界に匹敵する高速な減衰速度を示す。
- 参考スコア(独自算出の注目度): 34.92443710482514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic differential equations (SDEs) have been shown recently to characterize well the dynamics of training machine learning models with SGD. When the generalization error of the SDE approximation closely aligns with that of SGD in expectation, it provides two opportunities for understanding better the generalization behaviour of SGD through its SDE approximation. Firstly, viewing SGD as full-batch gradient descent with Gaussian gradient noise allows us to obtain trajectory-based generalization bound using the information-theoretic bound from Xu and Raginsky [2017]. Secondly, assuming mild conditions, we estimate the steady-state weight distribution of SDE and use information-theoretic bounds from Xu and Raginsky [2017] and Negrea et al. [2019] to establish terminal-state-based generalization bounds. Our proposed bounds have some advantages, notably the trajectory-based bound outperforms results in Wang and Mao [2022], and the terminal-state-based bound exhibits a fast decay rate comparable to stability-based bounds.
- Abstract(参考訳): 確率微分方程式(SDE)は、SGDを用いた機械学習モデルのトレーニングのダイナミクスをうまく特徴付けるために最近示されている。
SDE近似の一般化誤差が期待値のSGDと密接に一致するとき、SDE近似によるSGDの一般化挙動をよりよく理解する2つの機会を提供する。
第一に、SGDをガウス勾配雑音によるフルバッチ勾配下降と見なすと、Xu と Raginsky [2017] からの情報理論境界を用いて軌道に基づく一般化が得られる。
第二に、穏やかな条件を仮定すると、SDE の定常重み分布を推定し、Xu および Raginsky [2017] および Negrea et al [2019] からの情報理論境界を用いて、終状態に基づく一般化境界を確立する。
提案した境界にはいくつかの利点があり、特に Wang と Mao [2022] の軌道に基づく有界出力は、安定性に基づく有界に匹敵する高速な減衰速度を示す。
関連論文リスト
- Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation [1.8416014644193066]
重み付きSDEに対して、非自明な情報理論項を伴わない高確率境界一般化を証明した。
以上の結果から,重尾は問題構造によって有益か有害かのどちらかである可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T15:35:32Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - On the Validity of Modeling SGD with Stochastic Differential Equations
(SDEs) [31.938587263846635]
有限学習率 (LR) は実生活深層ネットのよい一般化に重要であると一般に認識されている。
有限LR SGD を Ito Differential Equations (SDEs) で近似することを提案する。
本論文は、以下の貢献により、この図を明確にする。
論文 参考訳(メタデータ) (2021-02-24T18:55:00Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - Convergence rates and approximation results for SGD and its
continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文 参考訳(メタデータ) (2020-04-08T18:31:34Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。