論文の概要: Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data
- arxiv url: http://arxiv.org/abs/2202.05928v1
- Date: Fri, 11 Feb 2022 23:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:37:03.410685
- Title: Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data
- Title(参考訳): 線形性のない良性オーバーフィッティング--ノイズ線形データに対する勾配降下学習ニューラルネットワーク分類器
- Authors: Spencer Frei, Niladri S. Chatterji, Peter L. Bartlett
- Abstract要約: 勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、ベイズ最適誤差に近いテストエラーを同時に達成することができる。
- 参考スコア(独自算出の注目度): 41.46549857286511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benign overfitting, the phenomenon where interpolating models generalize well
in the presence of noisy data, was first observed in neural network models
trained with gradient descent. To better understand this empirical observation,
we consider the generalization error of two-layer neural networks trained to
interpolation by gradient descent on the logistic loss following random
initialization. We assume the data comes from well-separated class-conditional
log-concave distributions and allow for a constant fraction of the training
labels to be corrupted by an adversary. We show that in this setting, neural
networks exhibit benign overfitting: they can be driven to zero training error,
perfectly fitting any noisy training labels, and simultaneously achieve test
error close to the Bayes-optimal error. In contrast to previous work on benign
overfitting that require linear or kernel-based predictors, our analysis holds
in a setting where both the model and learning dynamics are fundamentally
nonlinear.
- Abstract(参考訳): ノイズデータの存在下で補間モデルがうまく一般化する現象である良性過剰は、勾配降下で訓練されたニューラルネットワークモデルで初めて観測された。
この経験的観察をよりよく理解するために,ランダム初期化後のロジスティック損失の勾配降下による補間を訓練した2層ニューラルネットワークの一般化誤差について考察する。
データを分離したクラス条件のログコンケーブ分布から得ると仮定し、トレーニングラベルの一定割合を敵によって破壊できると仮定する。
この設定では、ニューラルネットワークは、トレーニングエラーゼロに駆動され、ノイズの多いトレーニングラベルに完全に適合し、ベイズ最適エラーに近いテストエラーを同時に達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形な状態にある。
関連論文リスト
- Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for
XOR Data [24.86314525762012]
勾配降下法により訓練されたReLU CNNがベイズ最適精度付近で実現できることを示す。
以上の結果から,CNNは高い相関性のある特徴が存在する場合でも,効率よくXOR問題を学習する能力を有することが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T11:31:37Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。