論文の概要: Why Flatness Correlates With Generalization For Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2103.06219v1
- Date: Wed, 10 Mar 2021 17:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 22:38:20.690463
- Title: Why Flatness Correlates With Generalization For Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークの一般化と平坦性が相関する理由
- Authors: Shuofeng Zhang, Isaac Reid, Guillermo Valle P\'erez, Ard Louis
- Abstract要約: 局所平坦度尺度は,グローバルな資産に対する局所近似であるため,一般化と相関する。
テスト集合上でゼロ誤差を与える関数に対しては、ベイズ後方に直比例する。
SGDのいくつかの変種は平坦性一般化相関を破りうるが、体積一般化相関はそのままである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The intuition that local flatness of the loss landscape is correlated with
better generalization for deep neural networks (DNNs) has been explored for
decades, spawning many different local flatness measures. Here we argue that
these measures correlate with generalization because they are local
approximations to a global property, the volume of the set of parameters
mapping to a specific function. This global volume is equivalent to the
Bayesian prior upon initialization. For functions that give zero error on a
test set, it is directly proportional to the Bayesian posterior, making volume
a more robust and theoretically better grounded predictor of generalization
than flatness. Whilst flatness measures fail under parameter re-scaling, volume
remains invariant and therefore continues to correlate well with
generalization. Moreover, some variants of SGD can break the
flatness-generalization correlation, while the volume-generalization
correlation remains intact.
- Abstract(参考訳): ロスランドスケープの局所平坦性は、ディープニューラルネットワーク(DNN)のより良い一般化と相関しており、多くの異なる局所平坦度尺度を生み出している。
ここでは、これらの測度は、局所的な大域的性質への近似であり、パラメータの集合の体積が特定の関数にマッピングされるため、一般化と相関する。
このグローバルボリュームは、初期化前にベイズ人と同等です。
テストセットでゼロ誤差を与える関数の場合、それは直接ベイズ後部に比例し、体積は平坦性よりも一般化のより堅牢で理論的に根拠付き予測器である。
パラメータ再スケーリングの下で平坦度測定は失敗するが、体積は不変であり、したがって一般化とよく相関している。
さらに、SGDの変種は平坦性一般化相関を破りうるが、体積一般化相関はそのままである。
関連論文リスト
- Generalized Laplace Approximation [23.185126261153236]
我々は、ベイズ的不整合を不特定性をモデル化し、不適切な先行をモデル化するために、統一された理論的枠組みを導入する。
正規化損失関数のヘッセン行列に対する簡単な調整を含む一般化ラプラス近似を提案する。
我々は、最先端のニューラルネットワークと実世界のデータセット上での一般化されたLaplace近似の性能と特性を評価する。
論文 参考訳(メタデータ) (2024-05-22T11:11:42Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - On generalization bounds for deep networks based on loss surface
implicit regularization [5.68558935178946]
現代のディープニューラルネットワークは、多くのパラメータにもかかわらずよく一般化されている。
現在のディープニューラルネットワークは、多くのパラメータが古典的な統計的学習理論と矛盾するにもかかわらず、よく一般化されている。
論文 参考訳(メタデータ) (2022-01-12T16:41:34Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。
この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文 参考訳(メタデータ) (2021-08-05T23:04:15Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Relative Flatness and Generalization [31.307340632319583]
損失曲線の平坦性は、機械学習モデルの一般化能力に関係していると推測される。
なぜ、そして、その状況下で平坦性が一般化に結びついているのかは、まだ明らかな理論上の問題である。
論文 参考訳(メタデータ) (2020-01-03T11:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。