論文の概要: Learning While Dissipating Information: Understanding the Generalization
Capability of SGLD
- arxiv url: http://arxiv.org/abs/2102.02976v1
- Date: Fri, 5 Feb 2021 03:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 16:46:19.051988
- Title: Learning While Dissipating Information: Understanding the Generalization
Capability of SGLD
- Title(参考訳): 情報伝達における学習 : SGLDの一般化能力の理解
- Authors: Hao Wang, Yizhe Huang, Rui Gao, Flavio P. Calmon
- Abstract要約: 勾配ランゲヴィンダイナミクス(SGLD)を解析してアルゴリズム依存の一般化を導出する。
分析の結果,学習と情報伝達の複雑なトレードオフが明らかになった。
- 参考スコア(独自算出の注目度): 9.328633662865682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the generalization capability of learning algorithms is at the
heart of statistical learning theory. In this paper, we investigate the
generalization gap of stochastic gradient Langevin dynamics (SGLD), a widely
used optimizer for training deep neural networks (DNNs). We derive an
algorithm-dependent generalization bound by analyzing SGLD through an
information-theoretic lens. Our analysis reveals an intricate trade-off between
learning and information dissipation: SGLD learns from data by updating
parameters at each iteration while dissipating information from early training
stages. Our bound also involves the variance of gradients which captures a
particular kind of "sharpness" of the loss landscape. The main proof techniques
in this paper rely on strong data processing inequalities -- a fundamental
concept in information theory -- and Otto-Villani's HWI inequality. Finally, we
demonstrate our bound through numerical experiments, showing that it can
predict the behavior of the true generalization gap.
- Abstract(参考訳): 学習アルゴリズムの一般化能力を理解することは、統計学習理論の中心である。
本稿では、深層ニューラルネットワーク(DNN)の訓練に広く用いられる最適化器である確率勾配Langevin Dynamics(SGLD)の一般化ギャップについて検討する。
sgldを情報理論レンズで解析することで,アルゴリズム依存の一般化を導出する。
sgldは、初期の学習段階から情報を散逸しながら、各イテレーションでパラメータを更新することでデータから学習します。
我々の境界はまた、損失景観の特定の種類の「シャープネス」をキャプチャする勾配の分散も含んでいる。
本論文の主な証明技術は、情報理論の基本概念である強いデータ処理の不等式と、オットー・ビラニのHWI不等式に依存する。
最後に, 数値実験により, 真の一般化ギャップの挙動を予測できることを実証した。
関連論文リスト
- On the Generalization Capability of Temporal Graph Learning Algorithms:
Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。
本稿では,異なるTGLアルゴリズムの一般化能力について検討する。
一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T08:22:22Z) - Exploring Causal Learning through Graph Neural Networks: An In-depth
Review [12.936700685252145]
因果関係の研究に用いられている様々な最先端のGNN手法を包含する新しい分類法を提案する。
GNNは、その因果領域における応用に基づいてさらに分類される。
このレビューは、多様な分野にわたる因果学習の適用にも触れている。
論文 参考訳(メタデータ) (2023-11-25T10:46:06Z) - Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective [11.255943520955764]
本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。
我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。
我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-05-02T01:17:15Z) - Learning Trajectories are Generalization Indicators [44.53518627207067]
本稿では,Deep Neural Networks (DNN) の学習軌跡と一般化能力との関係について検討する。
本稿では,各更新ステップの一般化誤差の変化に対する寄与を調査し,一般化誤差を解析するための新しい視点を提案する。
また,学習率やラベルのノイズレベルに対する調整を行う場合,一般化誤差の変化も追跡できる。
論文 参考訳(メタデータ) (2023-04-25T05:08:57Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Bounding Information Leakage in Machine Learning [26.64770573405079]
本稿では,情報漏洩の基本的な境界について検討する。
最悪の会員推論攻撃の成功率を特定し、拘束します。
感度の高い属性とモデルパラメータの間の相互情報の境界を導出する。
論文 参考訳(メタデータ) (2021-05-09T08:49:14Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。