Fugu-MT 論文翻訳(概要): Learning While Dissipating Information: Understanding the Generalization Capability of SGLD

論文の概要: Learning While Dissipating Information: Understanding the Generalization Capability of SGLD

arxiv url: http://arxiv.org/abs/2102.02976v1
Date: Fri, 5 Feb 2021 03:18:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-08 16:46:19.051988
Title: Learning While Dissipating Information: Understanding the Generalization Capability of SGLD
Title（参考訳）: 情報伝達における学習 : SGLDの一般化能力の理解
Authors: Hao Wang, Yizhe Huang, Rui Gao, Flavio P. Calmon
Abstract要約: 勾配ランゲヴィンダイナミクス(SGLD)を解析してアルゴリズム依存の一般化を導出する。分析の結果,学習と情報伝達の複雑なトレードオフが明らかになった。
参考スコア（独自算出の注目度）: 9.328633662865682
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the generalization capability of learning algorithms is at the heart of statistical learning theory. In this paper, we investigate the generalization gap of stochastic gradient Langevin dynamics (SGLD), a widely used optimizer for training deep neural networks (DNNs). We derive an algorithm-dependent generalization bound by analyzing SGLD through an information-theoretic lens. Our analysis reveals an intricate trade-off between learning and information dissipation: SGLD learns from data by updating parameters at each iteration while dissipating information from early training stages. Our bound also involves the variance of gradients which captures a particular kind of "sharpness" of the loss landscape. The main proof techniques in this paper rely on strong data processing inequalities -- a fundamental concept in information theory -- and Otto-Villani's HWI inequality. Finally, we demonstrate our bound through numerical experiments, showing that it can predict the behavior of the true generalization gap.
Abstract（参考訳）: 学習アルゴリズムの一般化能力を理解することは、統計学習理論の中心である。本稿では、深層ニューラルネットワーク(DNN)の訓練に広く用いられる最適化器である確率勾配Langevin Dynamics(SGLD)の一般化ギャップについて検討する。 sgldを情報理論レンズで解析することで,アルゴリズム依存の一般化を導出する。 sgldは、初期の学習段階から情報を散逸しながら、各イテレーションでパラメータを更新することでデータから学習します。我々の境界はまた、損失景観の特定の種類の「シャープネス」をキャプチャする勾配の分散も含んでいる。本論文の主な証明技術は、情報理論の基本概念である強いデータ処理の不等式と、オットー・ビラニのHWI不等式に依存する。最後に, 数値実験により, 真の一般化ギャップの挙動を予測できることを実証した。

関連論文リスト

On the Generalization Capability of Temporal Graph Learning Algorithms: Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。本稿では,異なるTGLアルゴリズムの一般化能力について検討する。一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文参考訳（メタデータ） (2024-02-26T08:22:22Z)
Exploring Causal Learning through Graph Neural Networks: An In-depth Review [12.936700685252145]
因果関係の研究に用いられている様々な最先端のGNN手法を包含する新しい分類法を提案する。 GNNは、その因果領域における応用に基づいてさらに分類される。このレビューは、多様な分野にわたる因果学習の適用にも触れている。
論文参考訳（メタデータ） (2023-11-25T10:46:06Z)
Understanding the Generalization Ability of Deep Learning Algorithms: A Kernelized Renyi's Entropy Perspective [11.255943520955764]
本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
論文参考訳（メタデータ） (2023-05-02T01:17:15Z)
Learning Trajectories are Generalization Indicators [44.53518627207067]
本稿では,Deep Neural Networks (DNN) の学習軌跡と一般化能力との関係について検討する。本稿では,各更新ステップの一般化誤差の変化に対する寄与を調査し,一般化誤差を解析するための新しい視点を提案する。また,学習率やラベルのノイズレベルに対する調整を行う場合,一般化誤差の変化も追跡できる。
論文参考訳（メタデータ） (2023-04-25T05:08:57Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
Bounding Information Leakage in Machine Learning [26.64770573405079]
本稿では,情報漏洩の基本的な境界について検討する。最悪の会員推論攻撃の成功率を特定し、拘束します。感度の高い属性とモデルパラメータの間の相互情報の境界を導出する。
論文参考訳（メタデータ） (2021-05-09T08:49:14Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Fast Learning of Graph Neural Networks with Guaranteed Generalizability: One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文参考訳（メタデータ） (2020-06-25T00:45:52Z)
On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文参考訳（メタデータ） (2020-05-01T02:08:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。