論文の概要: Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension
- arxiv url: http://arxiv.org/abs/2305.14077v3
- Date: Wed, 06 Nov 2024 09:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:12.924944
- Title: Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension
- Title(参考訳): スパイクを意識する:固定次元におけるカーネルとニューラルネットワークの過度な適合性
- Authors: Moritz Haas, David Holzmüller, Ulrike von Luxburg, Ingo Steinwart,
- Abstract要約: 推定器の滑らかさは次元ではなく、過度に適合する鍵であることが示される。
我々はその結果を広いニューラルネットワークに翻訳する。
我々の実験は、そのようなニューラルネットワークが過度に適合しているにもかかわらず、低次元のデータセットでも十分に一般化可能であることを検証した。
- 参考スコア(独自算出の注目度): 17.96183484063563
- License:
- Abstract: The success of over-parameterized neural networks trained to near-zero training error has caused great interest in the phenomenon of benign overfitting, where estimators are statistically consistent even though they interpolate noisy training data. While benign overfitting in fixed dimension has been established for some learning methods, current literature suggests that for regression with typical kernel methods and wide neural networks, benign overfitting requires a high-dimensional setting where the dimension grows with the sample size. In this paper, we show that the smoothness of the estimators, and not the dimension, is the key: benign overfitting is possible if and only if the estimator's derivatives are large enough. We generalize existing inconsistency results to non-interpolating models and more kernels to show that benign overfitting with moderate derivatives is impossible in fixed dimension. Conversely, we show that rate-optimal benign overfitting is possible for regression with a sequence of spiky-smooth kernels with large derivatives. Using neural tangent kernels, we translate our results to wide neural networks. We prove that while infinite-width networks do not overfit benignly with the ReLU activation, this can be fixed by adding small high-frequency fluctuations to the activation function. Our experiments verify that such neural networks, while overfitting, can indeed generalize well even on low-dimensional data sets.
- Abstract(参考訳): ほぼゼロに近いトレーニングエラーでトレーニングされた過パラメータニューラルネットワークの成功は、ノイズの多いトレーニングデータを補間したとしても、推定者が統計的に一貫した状態にある良性オーバーフィッティング現象に大きな関心を惹き付けている。
固定次元における良性オーバーフィッティングはいくつかの学習手法で確立されているが、現在の文献では、典型的なカーネル法や広いニューラルネットワークによる回帰では、良性オーバーフィッティングは、その寸法がサンプルサイズとともに大きくなるような高次元の設定を必要とすることを示唆している。
本稿では, 次元ではなく, 推定子の滑らかさが鍵であることが示される: 推定子の微分が十分に大きい場合にのみ, 良性オーバーフィッティングが可能である。
我々は既存の矛盾結果を非補間モデルやより多くのカーネルに一般化し、中間微分による良性過剰適合が固定次元では不可能であることを示す。
逆に, 速度-最適良性オーバーフィッティングは, 大きな導関数を持つスパイキー・スムースカーネル列による回帰に有効であることを示す。
ニューラル・タンジェント・カーネルを用いて、その結果を広義のニューラルネットワークに変換する。
無限幅ネットワークはReLUアクティベーションに優越しないが、アクティベーション関数に小さな高周波揺らぎを加えることでこれを固定できることを示す。
我々の実験は、そのようなニューラルネットワークが過度に適合しているにもかかわらず、低次元のデータセットでも十分に一般化可能であることを検証した。
関連論文リスト
- Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - Nonparametric regression using over-parameterized shallow ReLU neural networks [10.339057554827392]
ニューラルネットワークは、ある滑らかな関数クラスから関数を学習するために、最小収束率(対数係数まで)を達成することができることを示す。
回帰関数は、滑らかな$alpha(d+3)/2$あるいは浅いニューラルネットワークに対応する変分空間を持つH"古い空間から来ていると仮定される。
副産物として、浅いReLUニューラルネットワークの局所ラデマッハ複雑性に対する新しいサイズ非依存境界を導出する。
論文 参考訳(メタデータ) (2023-06-14T07:42:37Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting [19.08269066145619]
ニューラルネットワークを含むいくつかの補間手法は、破滅的なテスト性能を損なうことなく、ノイズの多いトレーニングデータを適合させることができる。
ニューラルネットワークのような実際の補間手法は、良心的に適合しない、と我々は主張する。
論文 参考訳(メタデータ) (2022-07-14T00:23:01Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Nonconvex regularization for sparse neural networks [0.0]
浅部ReLUネットワークにおける非正規化手法について検討した。
ネットワーク近似は、有限データのサイズが維持されていることを保証している。
論文 参考訳(メタデータ) (2020-04-24T03:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。