論文の概要: From Tempered to Benign Overfitting in ReLU Neural Networks
- arxiv url: http://arxiv.org/abs/2305.15141v3
- Date: Thu, 21 Mar 2024 10:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:29:39.916491
- Title: From Tempered to Benign Overfitting in ReLU Neural Networks
- Title(参考訳): ReLUニューラルネットワークにおけるテンペレからベネインオーバーフィッティングへ
- Authors: Guy Kornowski, Gilad Yehudai, Ohad Shamir,
- Abstract要約: 過自明なニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化することが観察される。
最近、NNの振舞いは「抑止過剰」と表現されることが多いと推測され、実証的に観察された。
- 参考スコア(独自算出の注目度): 41.271773069796126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized neural networks (NNs) are observed to generalize well even when trained to perfectly fit noisy data. This phenomenon motivated a large body of work on "benign overfitting", where interpolating predictors achieve near-optimal performance. Recently, it was conjectured and empirically observed that the behavior of NNs is often better described as "tempered overfitting", where the performance is non-optimal yet also non-trivial, and degrades as a function of the noise level. However, a theoretical justification of this claim for non-linear NNs has been lacking so far. In this work, we provide several results that aim at bridging these complementing views. We study a simple classification setting with 2-layer ReLU NNs, and prove that under various assumptions, the type of overfitting transitions from tempered in the extreme case of one-dimensional data, to benign in high dimensions. Thus, we show that the input dimension has a crucial role on the type of overfitting in this setting, which we also validate empirically for intermediate dimensions. Overall, our results shed light on the intricate connections between the dimension, sample size, architecture and training algorithm on the one hand, and the type of resulting overfitting on the other hand.
- Abstract(参考訳): 過度パラメータ化されたニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化される。
この現象は、補間予測器が最適に近い性能を達成する「ベニグナーオーバーフィッティング(benign overfitting)」という大きな仕事の動機となった。
近年, NNの動作は, 最適ではないが非自明であり, ノイズレベルの関数として劣化する, オーバーフィッティング(tempered overfitting)と表現されることが予想され, 実証的に確認されている。
しかし、非線形NNに対するこの主張の理論的正当性は今のところ欠落している。
本研究では,これらの相補的な視点を橋渡しすることを目的としたいくつかの結果を提供する。
本研究では,2層式ReLU NNを用いた単純な分類法について検討し,様々な仮定の下では,1次元データの極端な場合において,過度に適合する遷移のタイプが高次元で良性であることを証明する。
したがって、入力次元は、この設定におけるオーバーフィッティングのタイプに決定的な役割を果たすことを示し、中間次元に対して経験的に検証する。
全体として、我々の結果は、寸法、サンプルサイズ、アーキテクチャとトレーニングアルゴリズムの間の複雑な接続と、他方では結果が過度に適合するタイプに光を当てた。
関連論文リスト
- Benign Overfitting in Single-Head Attention [27.297696573634976]
本研究では,トランスフォーマーの基本構造である単一頭部ソフトマックスアテンションモデルにおける良性オーバーフィッティングについて検討する。
適切な条件下では、勾配降下の2段階の後に既に分類された設定において、モデルが良性過剰適合を示すことが証明される。
論文 参考訳(メタデータ) (2024-10-10T09:23:33Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension [17.96183484063563]
推定器の滑らかさは次元ではなく、過度に適合する鍵であることが示される。
我々はその結果を広いニューラルネットワークに翻訳する。
我々の実験は、そのようなニューラルネットワークが過度に適合しているにもかかわらず、低次元のデータセットでも十分に一般化可能であることを検証した。
論文 参考訳(メタデータ) (2023-05-23T13:56:29Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Robustness to Pruning Predicts Generalization in Deep Neural Networks [29.660568281957072]
トレーニングの損失に悪影響を与えることなく、pruning中に維持できるネットワークのパラメータの最小の屈折であるprunabilityを紹介します。
この測定は、CIFAR-10で訓練された大規模な畳み込みネットワーク全体のモデル一般化性能を非常に予測できることを示した。
論文 参考訳(メタデータ) (2021-03-10T11:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。