論文の概要: Information-Theoretic Generalization Bounds for Stochastic Gradient
Descent
- arxiv url: http://arxiv.org/abs/2102.00931v1
- Date: Mon, 1 Feb 2021 16:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:04:29.225542
- Title: Information-Theoretic Generalization Bounds for Stochastic Gradient
Descent
- Title(参考訳): 確率的勾配Descenceのための情報理論一般化境界
- Authors: Gergely Neu
- Abstract要約: 局所統計に依存する技術的誤りの限界を提供する。
主な要因は、勾配の客観的な分散、勾配の滑らかさ、摂動に対する損失関数の感度である。
我々の鍵となるツールは、以前SGDのランダム化された変種を解析するために使われた情報理論の一般化境界と、経路の摂動解析を組み合わせることである。
- 参考スコア(独自算出の注目度): 13.757095663704858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the generalization properties of the popular stochastic gradient
descent method for optimizing general non-convex loss functions. Our main
contribution is providing upper bounds on the generalization error that depend
on local statistics of the stochastic gradients evaluated along the path of
iterates calculated by SGD. The key factors our bounds depend on are the
variance of the gradients (with respect to the data distribution) and the local
smoothness of the objective function along the SGD path, and the sensitivity of
the loss function to perturbations to the final output. Our key technical tool
is combining the information-theoretic generalization bounds previously used
for analyzing randomized variants of SGD with a perturbation analysis of the
iterates.
- Abstract(参考訳): 一般的な非凸損失関数を最適化するための確率勾配勾配法の一般化特性について検討する。
我々の主な貢献は,sgdで計算されたイテレートの経路に沿って評価された確率勾配の局所統計に依存する一般化誤差の上限を提供することである。
我々の境界が依存する重要な要因は、勾配のばらつき(データ分布に関する)と、SGD経路に沿った目的関数の局所的滑らかさ、最終的な出力に対する摂動に対する損失関数の感度である。
当社の重要な技術ツールは、以前にSGDのランダム化変種を分析するために使用される情報理論一般化境界と、反復の摂動解析を組み合わせることです。
関連論文リスト
- Estimating Generalization Performance Along the Trajectory of Proximal SGD in Robust Regression [4.150180443030652]
本稿では,反復アルゴリズムの軌道に沿った反復の一般化誤差を正確に追跡する推定器を提案する。
結果は、ハマー回帰(英語版)、擬ハマー回帰(英語版)、および非滑らかな正則化子を持つそれらのペナル化変種(英語版)など、いくつかの例を通して説明される。
論文 参考訳(メタデータ) (2024-10-03T16:13:42Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - The Sobolev Regularization Effect of Stochastic Gradient Descent [8.193914488276468]
平坦なミニマはモデル関数の勾配を正則化するので、平坦なミニマの優れた性能が説明できる。
また、勾配雑音の高次モーメントについても検討し、グローバル・ミニマ周辺でのSGDの線形解析により、グラディエント・ダセント(SGD)がこれらのモーメントに制約を課す傾向があることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:49:21Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。