論文の概要: Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting
- arxiv url: http://arxiv.org/abs/2207.06569v3
- Date: Mon, 15 Jul 2024 21:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 00:30:09.236128
- Title: Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting
- Title(参考訳): 良性、気質、または壊滅性:過度に適合する分類学
- Authors: Neil Mallinar, James B. Simon, Amirhesam Abedsoltan, Parthe Pandit, Mikhail Belkin, Preetum Nakkiran,
- Abstract要約: ニューラルネットワークを含むいくつかの補間手法は、破滅的なテスト性能を損なうことなく、ノイズの多いトレーニングデータを適合させることができる。
ニューラルネットワークのような実際の補間手法は、良心的に適合しない、と我々は主張する。
- 参考スコア(独自算出の注目度): 19.08269066145619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The practical success of overparameterized neural networks has motivated the recent scientific study of interpolating methods, which perfectly fit their training data. Certain interpolating methods, including neural networks, can fit noisy training data without catastrophically bad test performance, in defiance of standard intuitions from statistical learning theory. Aiming to explain this, a body of recent work has studied benign overfitting, a phenomenon where some interpolating methods approach Bayes optimality, even in the presence of noise. In this work we argue that while benign overfitting has been instructive and fruitful to study, many real interpolating methods like neural networks do not fit benignly: modest noise in the training set causes nonzero (but non-infinite) excess risk at test time, implying these models are neither benign nor catastrophic but rather fall in an intermediate regime. We call this intermediate regime tempered overfitting, and we initiate its systematic study. We first explore this phenomenon in the context of kernel (ridge) regression (KR) by obtaining conditions on the ridge parameter and kernel eigenspectrum under which KR exhibits each of the three behaviors. We find that kernels with powerlaw spectra, including Laplace kernels and ReLU neural tangent kernels, exhibit tempered overfitting. We then empirically study deep neural networks through the lens of our taxonomy, and find that those trained to interpolation are tempered, while those stopped early are benign. We hope our work leads to a more refined understanding of overfitting in modern learning.
- Abstract(参考訳): 過度にパラメータ化されたニューラルネットワークの実践的成功は、最近の科学的な補間法の研究の動機となり、それはトレーニングデータに完全に適合している。
ニューラルネットワークを含むある種の補間法は、統計的学習理論からの標準的な直観に反し、破滅的に悪いテスト性能を伴わずにノイズの多いトレーニングデータを適合させることができる。
これを説明するため、近年の研究では、ノイズの存在下でもベイズ最適性に近づく補間手法として、良性過剰適合の研究が行われている。
トレーニングセットの質素なノイズは、テスト時にゼロではない(しかし無限ではない)過剰なリスクを生じさせ、これらのモデルが良性でも破滅的でも無く、中間的な状態に陥ることを意味する。
我々はこの中間体制を過度に適合させ、その体系的研究を開始する。
我々はまず、この現象をカーネル(リッジ)回帰(KR)の文脈で探求し、3つの挙動のそれぞれを示すリッジパラメータとカーネル固有スペクトルの条件を求める。
LaplaceカーネルやReLUニューラルタンジェントカーネルを含むパワーロースペクトルを持つカーネルは、過度なオーバーフィットを示す。
そして、我々の分類学のレンズを通してディープニューラルネットワークを経験的に研究し、補間訓練を受けた人々は誘惑的であり、早期に停止した人は良心的であることを発見した。
私たちの仕事は、現代の学習における過度な適合に対するより洗練された理解につながることを願っています。
関連論文リスト
- On the Asymptotic Learning Curves of Kernel Ridge Regression under
Power-law Decay [17.306230523610864]
ノイズレベルが小さい場合のみ、非常に広いニューラルネットワークに「良性オーバーフィッティング現象」が存在することを示す。
この現象は,ノイズレベルが小さい場合にのみ,非常に広いニューラルネットワークに存在することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T11:18:13Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension [17.96183484063563]
推定器の滑らかさは次元ではなく、過度に適合する鍵であることが示される。
我々はその結果を広いニューラルネットワークに翻訳する。
我々の実験は、そのようなニューラルネットワークが過度に適合しているにもかかわらず、低次元のデータセットでも十分に一般化可能であることを検証した。
論文 参考訳(メタデータ) (2023-05-23T13:56:29Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。