論文の概要: On generalization bounds for deep networks based on loss surface
implicit regularization
- arxiv url: http://arxiv.org/abs/2201.04545v1
- Date: Wed, 12 Jan 2022 16:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 16:03:47.878996
- Title: On generalization bounds for deep networks based on loss surface
implicit regularization
- Title(参考訳): 損失面暗黙正則化に基づくディープネットワークの一般化境界について
- Authors: Masaaki Imaizumi, Johannes Schmidt-Hieber
- Abstract要約: 現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
- 参考スコア(独自算出の注目度): 5.68558935178946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The classical statistical learning theory says that fitting too many
parameters leads to overfitting and poor performance. That modern deep neural
networks generalize well despite a large number of parameters contradicts this
finding and constitutes a major unsolved problem towards explaining the success
of deep learning. The implicit regularization induced by stochastic gradient
descent (SGD) has been regarded to be important, but its specific principle is
still unknown. In this work, we study how the local geometry of the energy
landscape around local minima affects the statistical properties of SGD with
Gaussian gradient noise. We argue that under reasonable assumptions, the local
geometry forces SGD to stay close to a low dimensional subspace and that this
induces implicit regularization and results in tighter bounds on the
generalization error for deep neural networks. To derive generalization error
bounds for neural networks, we first introduce a notion of stagnation sets
around the local minima and impose a local essential convexity property of the
population risk. Under these conditions, lower bounds for SGD to remain in
these stagnation sets are derived. If stagnation occurs, we derive a bound on
the generalization error of deep neural networks involving the spectral norms
of the weight matrices but not the number of network parameters. Technically,
our proofs are based on controlling the change of parameter values in the SGD
iterates and local uniform convergence of the empirical loss functions based on
the entropy of suitable neighborhoods around local minima. Our work attempts to
better connect non-convex optimization and generalization analysis with uniform
convergence.
- Abstract(参考訳): 古典的な統計学習理論では、パラメータが多すぎると過剰になり、性能が低下する。
多数のパラメータが存在するにもかかわらず、現代のディープニューラルネットワークはこの発見と矛盾し、ディープラーニングの成功を説明するための大きな問題となっている。
確率勾配降下(SGD)による暗黙の正則化は重要であると考えられているが、その特異な原理はいまだ不明である。
本研究では,局所ミニマ周辺のエネルギー景観の局所形状がガウス勾配雑音を伴うsgdの統計特性にどのように影響するかを考察する。
妥当な仮定の下では、局所幾何学はSGDに低次元部分空間に近づき続けるよう強制し、これは暗黙の正規化を誘発し、ディープニューラルネットワークの一般化誤差により厳密な境界をもたらすと論じる。
ニューラルネットワークの一般化誤差境界を導出するために,まず,局所的ミニマ周辺のスタグネーション集合の概念を導入し,個体群リスクの局所的本質的凸性を課す。
これらの条件下では、SGD のこれらの静止集合に残すべき下界が導出される。
停滞が発生した場合、重み行列のスペクトルノルムを含むディープニューラルネットワークの一般化誤差を導出するが、ネットワークパラメータの数ではない。
技術的には、sgdイテレートにおけるパラメータ値の変化と、局所ミニマ周辺の適切な近傍のエントロピーに基づいて経験的損失関数の局所一様収束を制御することに基づいている。
本研究は,非凸最適化と一般化解析を一様収束で接続する。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Generalization Error Bounds for Deep Neural Networks Trained by SGD [3.148524502470734]
勾配降下(SGD)により訓練された深度に対する一般化誤差境界を導出する。
境界は、トレーニング軌跡に沿った損失に明示的に依存する。
その結果、ニューラルネットワークとネットワークハイパースの変化により、境界は非空洞で堅牢であることが判明した。
論文 参考訳(メタデータ) (2022-06-07T13:46:10Z) - Robust Estimation for Nonparametric Families via Generative Adversarial
Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。
我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。
技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文 参考訳(メタデータ) (2022-02-02T20:11:33Z) - Global convergence of ResNets: From finite to infinite width using
linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
論文 参考訳(メタデータ) (2021-12-10T13:38:08Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Why Flatness Correlates With Generalization For Deep Neural Networks [0.0]
局所平坦度尺度は,グローバルな資産に対する局所近似であるため,一般化と相関する。
テスト集合上でゼロ誤差を与える関数に対しては、ベイズ後方に直比例する。
SGDのいくつかの変種は平坦性一般化相関を破りうるが、体積一般化相関はそのままである。
論文 参考訳(メタデータ) (2021-03-10T17:44:52Z) - Explicit regularization and implicit bias in deep network classifiers
trained with the square loss [2.8935588665357077]
平方損失で訓練された深いReLUネットワークは分類の仕事でよく機能するために観察されました。
正規化法を重み決定法とともに用いる場合,絶対最小ノルムの解への収束が期待できることを示す。
論文 参考訳(メタデータ) (2020-12-31T21:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。