論文の概要: Time-Independent Information-Theoretic Generalization Bounds for SGLD
- arxiv url: http://arxiv.org/abs/2311.01046v1
- Date: Thu, 2 Nov 2023 07:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:29:33.540333
- Title: Time-Independent Information-Theoretic Generalization Bounds for SGLD
- Title(参考訳): SGLDのための時間独立情報理論一般化境界
- Authors: Futoshi Futami, Masahiro Fujisawa
- Abstract要約: ランゲヴィン力学データセットに対する新しい情報理論の一般化境界を提供する。
私たちの境界は滑らかさと散逸の仮定に基づいており、指数的ではない。
- 参考スコア(独自算出の注目度): 4.73194777046253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide novel information-theoretic generalization bounds for stochastic
gradient Langevin dynamics (SGLD) under the assumptions of smoothness and
dissipativity, which are widely used in sampling and non-convex optimization
studies. Our bounds are time-independent and decay to zero as the sample size
increases, regardless of the number of iterations and whether the step size is
fixed. Unlike previous studies, we derive the generalization error bounds by
focusing on the time evolution of the Kullback--Leibler divergence, which is
related to the stability of datasets and is the upper bound of the mutual
information between output parameters and an input dataset. Additionally, we
establish the first information-theoretic generalization bound when the
training and test loss are the same by showing that a loss function of SGLD is
sub-exponential. This bound is also time-independent and removes the
problematic step size dependence in existing work, leading to an improved
excess risk bound by combining our analysis with the existing non-convex
optimization error bounds.
- Abstract(参考訳): 本研究では, サンプリングおよび非凸最適化研究で広く用いられている, 滑らかさと分散性という仮定の下で, 確率勾配ランジュバンダイナミクス (sgld) のための新しい情報理論一般化境界を提案する。
私たちの境界は時間に依存しず、イテレーションの数やステップサイズが固定されているかどうかに関わらず、サンプルサイズが増加するにつれてゼロに崩壊します。
従来の研究とは異なり,Kulback-Leibler分散の時間発展に着目して一般化誤差境界を導出する。これはデータセットの安定性に関係し,出力パラメータと入力データセット間の相互情報の上限である。
さらに、SGLDの損失関数がサブ指数であることを示し、トレーニングとテストの損失が同じである場合に、最初の情報理論の一般化を確立する。
このバウンダリは時間非依存であり、既存の作業における問題のあるステップサイズ依存を排除し、我々の分析と既存の非凸最適化エラーバウンダリを組み合わせることで、過剰なリスク境界を改善する。
関連論文リスト
- Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective [11.255943520955764]
本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。
我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。
我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-05-02T01:17:15Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Time-independent Generalization Bounds for SGLD in Non-convex Settings [23.833787505938858]
分離性およびユークリッド勾配射影の仮定に基づき,ランゲヴィン力学(SGLD)の一般化誤差境界を一定の学習率で確立する。
我々の分析は、異なる離散化法を使用する変種や、非is-is-noiseプロジェクションを使用する変種もサポートする。
論文 参考訳(メタデータ) (2021-11-25T02:31:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Online stochastic gradient descent on non-convex losses from
high-dimensional inference [2.2344764434954256]
勾配降下(SGD)は高次元タスクにおける最適化問題に対する一般的なアルゴリズムである。
本稿では,データから非自明な相関関係を推定する。
本稿では、位相探索や一般化モデルの推定といった一連のタスクに適用することで、我々のアプローチを説明する。
論文 参考訳(メタデータ) (2020-03-23T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。