論文の概要: From Tempered to Benign Overfitting in ReLU Neural Networks
- arxiv url: http://arxiv.org/abs/2305.15141v1
- Date: Wed, 24 May 2023 13:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:38:33.281354
- Title: From Tempered to Benign Overfitting in ReLU Neural Networks
- Title(参考訳): ReLUニューラルネットワークにおけるテンペレからベネインオーバーフィッティングへ
- Authors: Guy Kornowski, Gilad Yehudai, Ohad Shamir
- Abstract要約: 過自明なニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化することが観察される。
最近、NNの振舞いは「抑止過剰」と表現されることが多いと推測され、実証的に観察された。
- 参考スコア(独自算出の注目度): 33.25932244741267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized neural networks (NNs) are observed to generalize well even
when trained to perfectly fit noisy data. This phenomenon motivated a large
body of work on "benign overfitting", where interpolating predictors achieve
near-optimal performance. Recently, it was conjectured and empirically observed
that the behavior of NNs is often better described as "tempered overfitting",
where the performance is non-optimal yet also non-trivial, and degrades as a
function of the noise level. However, a theoretical justification of this claim
for non-linear NNs has been lacking so far. In this work, we provide several
results that aim at bridging these complementing views. We study a simple
classification setting with 2-layer ReLU NNs, and prove that under various
assumptions, the type of overfitting transitions from tempered in the extreme
case of one-dimensional data, to benign in high dimensions. Thus, we show that
the input dimension has a crucial role on the type of overfitting in this
setting, which we also validate empirically for intermediate dimensions.
Overall, our results shed light on the intricate connections between the
dimension, sample size, architecture and training algorithm on the one hand,
and the type of resulting overfitting on the other hand.
- Abstract(参考訳): 過パラメータニューラルネットワーク(NN)は、ノイズの多いデータに完全に適合するように訓練された場合でも、適切に一般化する。
この現象は、補間予測器が最適に近い性能を達成する「ベニグナーオーバーフィッティング(benign overfitting)」という大きな仕事の動機となった。
近年, NNの動作は, 最適ではないが非自明であり, ノイズレベルの関数として劣化する, オーバーフィッティング(tempered overfitting)と表現されることが予想され, 実証的に確認されている。
しかし、非線形NNに対するこの主張の理論的正当性は今のところ欠落している。
本稿では,これら補完的視点の橋渡しを目的としたいくつかの結果について述べる。
本研究では, 2層relu nnを用いた簡易な分類法について検討し, 種々の仮定の下では, 1次元データの極端な場合の温和化から高次元の良性への過フィッティング遷移のタイプを証明した。
したがって、入力次元は、この設定におけるオーバーフィッティングのタイプに重要な役割を持ち、中間次元についても経験的に検証する。
全体として、我々の結果は、寸法、サンプルサイズ、アーキテクチャとトレーニングアルゴリズムの間の複雑な接続と、他方では結果が過度に適合するタイプに光を当てた。
関連論文リスト
- Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Robustness to Pruning Predicts Generalization in Deep Neural Networks [29.660568281957072]
トレーニングの損失に悪影響を与えることなく、pruning中に維持できるネットワークのパラメータの最小の屈折であるprunabilityを紹介します。
この測定は、CIFAR-10で訓練された大規模な畳み込みネットワーク全体のモデル一般化性能を非常に予測できることを示した。
論文 参考訳(メタデータ) (2021-03-10T11:39:14Z) - Analyzing Overfitting under Class Imbalance in Neural Networks for Image
Segmentation [19.259574003403998]
画像分割では、ニューラルネットワークは小さな構造物の前景サンプルに過剰に適合する可能性がある。
本研究では,ネットワークの動作を検査することにより,クラス不均衡下でのオーバーフィッティング問題に対する新たな知見を提供する。
論文 参考訳(メタデータ) (2021-02-20T14:57:58Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Extrapolatable Relational Reasoning With Comparators in Low-Dimensional
Manifolds [7.769102711230249]
本稿では,現在のニューラルネットワークアーキテクチャと容易に融合可能な,神経科学にインスパイアされた誘導バイアスモジュールを提案する。
この誘導バイアスを持つニューラルネットは、様々な関係推論タスクにおいて、O.o.d一般化性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-06-15T19:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。