論文の概要: Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective
- arxiv url: http://arxiv.org/abs/2305.01143v1
- Date: Tue, 2 May 2023 01:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 15:41:25.252733
- Title: Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective
- Title(参考訳): ディープラーニングアルゴリズムの一般化能力を理解する: Renyiのエントロピーの視点から
- Authors: Yuxin Dong and Tieliang Gong and Hong Chen and Chen Li
- Abstract要約: 本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。
我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。
我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
- 参考スコア(独自算出の注目度): 11.255943520955764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, information theoretic analysis has become a popular framework for
understanding the generalization behavior of deep neural networks. It allows a
direct analysis for stochastic gradient/Langevin descent (SGD/SGLD) learning
algorithms without strong assumptions such as Lipschitz or convexity
conditions. However, the current generalization error bounds within this
framework are still far from optimal, while substantial improvements on these
bounds are quite challenging due to the intractability of high-dimensional
information quantities. To address this issue, we first propose a novel
information theoretical measure: kernelized Renyi's entropy, by utilizing
operator representation in Hilbert space. It inherits the properties of
Shannon's entropy and can be effectively calculated via simple random sampling,
while remaining independent of the input dimension. We then establish the
generalization error bounds for SGD/SGLD under kernelized Renyi's entropy,
where the mutual information quantities can be directly calculated, enabling
evaluation of the tightness of each intermediate step. We show that our
information-theoretical bounds depend on the statistics of the stochastic
gradients evaluated along with the iterates, and are rigorously tighter than
the current state-of-the-art (SOTA) results. The theoretical findings are also
supported by large-scale empirical studies1.
- Abstract(参考訳): 近年,情報理論解析はディープニューラルネットワークの一般化行動を理解するための一般的なフレームワークとなっている。
リプシッツや凸条件のような強い仮定なしに確率的勾配/ランゲバン降下(sgd/sgld)学習アルゴリズムを直接解析することができる。
しかし、このフレームワーク内の現在の一般化誤差境界はまだ最適には程遠いが、高次元情報量の抽出性のため、これらの境界に対する大幅な改善は極めて困難である。
この問題に対処するために、ヒルベルト空間における作用素表現を利用して、レニーのエントロピーをカーネル化した新しい情報理論測度を提案する。
シャノンのエントロピーの性質を継承し、入力次元とは独立に、単純なランダムサンプリングによって効果的に計算することができる。
次に,相互情報量を直接計算できるカーネル化レーニーエントロピーの下でsgd/sgldの一般化誤差境界を確立し,各中間ステップのタイトネスの評価を可能にする。
我々の情報理論的境界は, 評価された確率勾配の統計量に依拠し, 現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
理論的な発見は大規模実験研究1でも裏付けられている。
関連論文リスト
- Slicing Mutual Information Generalization Bounds for Neural Networks [14.48773730230054]
我々は、ディープラーニングアルゴリズムに適した、より厳密な情報理論の一般化バウンダリを導入する。
我々の境界は、標準MI境界よりも有意な計算的および統計的優位性を提供する。
パラメータがランダムな部分空間に正確に横たわる必要がないアルゴリズムに解析を拡張します。
論文 参考訳(メタデータ) (2024-06-06T13:15:37Z) - Time-Independent Information-Theoretic Generalization Bounds for SGLD [4.73194777046253]
ランゲヴィン力学データセットに対する新しい情報理論の一般化境界を提供する。
私たちの境界は滑らかさと散逸の仮定に基づいており、指数的ではない。
論文 参考訳(メタデータ) (2023-11-02T07:42:23Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。