論文の概要: Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation
- arxiv url: http://arxiv.org/abs/2402.07723v2
- Date: Mon, 3 Jun 2024 14:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.867845
- Title: Generalization Bounds for Heavy-Tailed SDEs through the Fractional Fokker-Planck Equation
- Title(参考訳): フラクショナルフォッカー・プランク方程式による重機SDEの一般化境界
- Authors: Benjamin Dupuis, Umut Şimşekli,
- Abstract要約: 重み付きSDEに対して、非自明な情報理論項を伴わない高確率境界一般化を証明した。
以上の結果から,重尾は問題構造によって有益か有害かのどちらかである可能性が示唆された。
- 参考スコア(独自算出の注目度): 1.8416014644193066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the generalization properties of heavy-tailed stochastic optimization algorithms has attracted increasing attention over the past years. While illuminating interesting aspects of stochastic optimizers by using heavy-tailed stochastic differential equations as proxies, prior works either provided expected generalization bounds, or introduced non-computable information theoretic terms. Addressing these drawbacks, in this work, we prove high-probability generalization bounds for heavy-tailed SDEs which do not contain any nontrivial information theoretic terms. To achieve this goal, we develop new proof techniques based on estimating the entropy flows associated with the so-called fractional Fokker-Planck equation (a partial differential equation that governs the evolution of the distribution of the corresponding heavy-tailed SDE). In addition to obtaining high-probability bounds, we show that our bounds have a better dependence on the dimension of parameters as compared to prior art. Our results further identify a phase transition phenomenon, which suggests that heavy tails can be either beneficial or harmful depending on the problem structure. We support our theory with experiments conducted in a variety of settings.
- Abstract(参考訳): 重み付き確率最適化アルゴリズムの一般化特性を理解することは、近年注目されている。
重み付き確率微分方程式をプロキシとして用いることで確率最適化の興味深い側面を照らす一方で、以前の研究は期待される一般化境界を提供したり、計算不可能な情報理論用語を導入したりした。
これらの欠点に対処するため、本研究では、非自明な情報理論用語を含まない重み付きSDEに対する高確率一般化境界を証明した。
この目的を達成するため、我々は、いわゆる分数的フォッカー・プランク方程式(対応する重み付きSDEの分布の進化を制御した偏微分方程式)に付随するエントロピーフローを推定した新しい証明手法を開発した。
高確率バウンダリを得るのに加えて、我々のバウンダリは、先行技術と比較してパラメータの次元により良い依存があることが示される。
以上の結果から,重尾は問題構造によって有益か有害かが示唆される相転移現象が明らかとなった。
我々は様々な環境で実施された実験で理論を支持している。
関連論文リスト
- Identifying Drift, Diffusion, and Causal Structure from Temporal Snapshots [10.018568337210876]
本稿では,SDEの時空間からのドリフトと拡散を共同で推定する,最初の包括的アプローチを提案する。
これらのステップのそれぞれが、Kullback-Leiblerデータセットに関して常に最適であることを示す。
論文 参考訳(メタデータ) (2024-10-30T06:28:21Z) - On Convergence Analysis of Policy Iteration Algorithms for Entropy-Regularized Stochastic Control Problems [19.742628365680353]
一般の連続時間エントロピー正規化制御問題に対するポリシー反復アルゴリズム(PIA)の収束に関する問題点について検討する。
拡散が1次元の設定で制御を含む場合にも、我々のアプローチは拡張可能であるが、係数に余分な制約を伴わないことを示す。
論文 参考訳(メタデータ) (2024-06-16T14:31:26Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Generalization Properties of Stochastic Optimizers via Trajectory
Analysis [48.38493838310503]
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
論文 参考訳(メタデータ) (2021-08-02T10:58:32Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Convergence rates and approximation results for SGD and its
continuous-time counterpart [16.70533901524849]
本稿では,非増加ステップサイズを有する凸勾配Descent (SGD) の完全理論的解析を提案する。
まず、結合を用いた不均一微分方程式(SDE)の解により、SGDを確実に近似できることを示す。
連続的手法による決定論的および最適化手法の最近の分析において, 連続過程の長期的挙動と非漸近的境界について検討する。
論文 参考訳(メタデータ) (2020-04-08T18:31:34Z) - Stochastic Normalizing Flows [52.92110730286403]
微分方程式(SDE)を用いた最大推定と変分推論のための正規化フロー(VI)を導入する。
粗い経路の理論を用いて、基礎となるブラウン運動は潜在変数として扱われ、近似され、神経SDEの効率的な訓練を可能にする。
これらのSDEは、与えられたデータセットの基盤となる分布からサンプリングする効率的なチェーンを構築するために使用することができる。
論文 参考訳(メタデータ) (2020-02-21T20:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。