論文の概要: Benign Overfitting in Two-layer Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2202.06526v1
- Date: Mon, 14 Feb 2022 07:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:36:04.478198
- Title: Benign Overfitting in Two-layer Convolutional Neural Networks
- Title(参考訳): 2層畳み込みニューラルネットワークの良性オーバーフィッティング
- Authors: Yuan Cao and Zixiang Chen and Mikhail Belkin and Quanquan Gu
- Abstract要約: 2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
- 参考スコア(独自算出の注目度): 90.75603889605043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks often have great expressive power and can be trained
to overfit the training data, while still achieving a good test performance.
This phenomenon is referred to as "benign overfitting". Recently, there emerges
a line of works studying "benign overfitting" from the theoretical perspective.
However, they are limited to linear models or kernel/random feature models, and
there is still a lack of theoretical understanding about when and how benign
overfitting occurs in neural networks. In this paper, we study the benign
overfitting phenomenon in training a two-layer convolutional neural network
(CNN). We show that when the signal-to-noise ratio satisfies a certain
condition, a two-layer CNN trained by gradient descent can achieve arbitrarily
small training and test loss. On the other hand, when this condition does not
hold, overfitting becomes harmful and the obtained CNN can only achieve
constant level test loss. These together demonstrate a sharp phase transition
between benign overfitting and harmful overfitting, driven by the
signal-to-noise ratio. To the best of our knowledge, this is the first work
that precisely characterizes the conditions under which benign overfitting can
occur in training convolutional neural networks.
- Abstract(参考訳): 現代のニューラルネットワークは、しばしば非常に表現力があり、優れたテスト性能を保ちながら、トレーニングデータの過度な適合を訓練することができる。
この現象は「良性過剰」と呼ばれる。
近年,理論的な観点から「良質な過剰フィット」を研究する一連の研究がなされている。
しかし、それらは線形モデルやカーネル/ランダムな特徴モデルに限定されており、ニューラルネットワークでいつ、どのように過度に適合するかに関する理論的理解はいまだにない。
本稿では,2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象について検討する。
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保持されない場合、過剰フィッティングは有害となり、得られたcnnは一定レベルのテスト損失しか達成できない。
これらは、信号-雑音比によって駆動される良性過剰適合と有害過剰適合の急激な相転移を示す。
私たちの知る限りでは、畳み込みニューラルネットワークのトレーニングにおいて、良心過剰が生じる条件を正確に特徴づける最初の研究である。
関連論文リスト
- Benign Overfitting in Two-Layer ReLU Convolutional Neural Networks for
XOR Data [24.86314525762012]
勾配降下法により訓練されたReLU CNNがベイズ最適精度付近で実現できることを示す。
以上の結果から,CNNは高い相関性のある特徴が存在する場合でも,効率よくXOR問題を学習する能力を有することが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T11:31:37Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting [19.08269066145619]
ニューラルネットワークを含むいくつかの補間手法は、破滅的なテスト性能を損なうことなく、ノイズの多いトレーニングデータを適合させることができる。
ニューラルネットワークのような実際の補間手法は、良心的に適合しない、と我々は主張する。
論文 参考訳(メタデータ) (2022-07-14T00:23:01Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Compressive sensing with un-trained neural networks: Gradient descent
finds the smoothest approximation [60.80172153614544]
訓練されていない畳み込みニューラルネットワークは、画像の回復と復元に非常に成功したツールとして登場した。
トレーニングされていない畳み込みニューラルネットワークは、ほぼ最小限のランダムな測定値から、十分に構造化された信号や画像を概ね再構成可能であることを示す。
論文 参考訳(メタデータ) (2020-05-07T15:57:25Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。