論文の概要: Benign Overfitting for Two-layer ReLU Networks
- arxiv url: http://arxiv.org/abs/2303.04145v1
- Date: Tue, 7 Mar 2023 18:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:10:40.947990
- Title: Benign Overfitting for Two-layer ReLU Networks
- Title(参考訳): 2層ReLUネットワークの配向オーバーフィッティング
- Authors: Yiwen Kou and Zixiang Chen and Yuanzhou Chen and Quanquan Gu
- Abstract要約: ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
- 参考スコア(独自算出の注目度): 71.78352722180915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning models with great expressive power can be trained to
overfit the training data but still generalize well. This phenomenon is
referred to as benign overfitting. Recently, a few studies have attempted to
theoretically understand benign overfitting in neural networks. However, these
works are either limited to neural networks with smooth activation functions or
to the neural tangent kernel regime. How and when benign overfitting can occur
in ReLU neural networks remains an open problem. In this work, we seek to
answer this question by establishing algorithm-dependent risk bounds for
learning two-layer ReLU convolutional neural networks with label-flipping
noise. We show that, under mild conditions, the neural network trained by
gradient descent can achieve near-zero training loss and Bayes optimal test
risk. Our result also reveals a sharp transition between benign and harmful
overfitting under different conditions on data distribution in terms of test
risk. Experiments on synthetic data back up our theory.
- Abstract(参考訳): 優れた表現力を持つ現代のディープラーニングモデルは、トレーニングデータに過度に適合するが、それでも十分に一般化できる。
この現象は良性過剰化(benign overfitting)と呼ばれる。
近年、ニューラルネットワークの良性過剰適合を理論的に理解しようとする研究がいくつかある。
しかしながら、これらの研究は、スムーズな活性化機能を持つニューラルネットワークや、ニューラルタンジェントカーネル体制に限られている。
ReLUニューラルネットワークが過度に適合する理由と時期は未解決のままである。
本研究では,ラベルフリップ雑音を伴う2層ReLU畳み込みニューラルネットワークを学習するアルゴリズム依存型リスク境界を確立することにより,この問題に対処する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
また,テストリスクの観点から,データ分布の異なる条件下での良性と有害なオーバーフィッティングの急激な移行も明らかにした。
私たちの理論を裏付ける合成データの実験。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Benign, Tempered, or Catastrophic: A Taxonomy of Overfitting [19.08269066145619]
ニューラルネットワークを含むいくつかの補間手法は、破滅的なテスト性能を損なうことなく、ノイズの多いトレーニングデータを適合させることができる。
ニューラルネットワークのような実際の補間手法は、良心的に適合しない、と我々は主張する。
論文 参考訳(メタデータ) (2022-07-14T00:23:01Z) - Optimal Learning Rates of Deep Convolutional Neural Networks: Additive
Ridge Functions [19.762318115851617]
深部畳み込みニューラルネットワークにおける平均2乗誤差解析について考察する。
付加的なリッジ関数に対しては、畳み込みニューラルネットワークとReLUアクティベーション関数を併用した1つの完全連結層が最適極小値に到達できることが示される。
論文 参考訳(メタデータ) (2022-02-24T14:22:32Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Artificial Neural Variability for Deep Learning: On Overfitting, Noise
Memorization, and Catastrophic Forgetting [135.0863818867184]
人工ニューラルネットワーク(ANV)は、ニューラルネットワークが自然のニューラルネットワークからいくつかの利点を学ぶのに役立つ。
ANVは、トレーニングデータと学習モデルの間の相互情報の暗黙の正則化として機能する。
過度にフィットし、ノイズの記憶をラベル付けし、無視できるコストで破滅的な忘れを効果的に軽減することができる。
論文 参考訳(メタデータ) (2020-11-12T06:06:33Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Bidirectionally Self-Normalizing Neural Networks [46.20979546004718]
本研究では, ニューラルネットワークの幅が十分であれば, 消失/爆発の勾配問題は高い確率で消失することを示す厳密な結果を与える。
我々の主な考えは、新しい種類の活性化関数を通して、非線形ニューラルネットワークにおける前方信号と後方信号の伝搬を制限することである。
論文 参考訳(メタデータ) (2020-06-22T12:07:29Z) - A Deep Conditioning Treatment of Neural Networks [37.192369308257504]
本研究では,入力データの特定のカーネル行列の条件付けを改善することにより,ニューラルネットワークのトレーニング性を向上させることを示す。
ニューラルネットワークの上位層のみのトレーニングと、ニューラルネットワークのタンジェントカーネルを通じてすべてのレイヤをトレーニングするための学習を行うためのバージョンを提供しています。
論文 参考訳(メタデータ) (2020-02-04T20:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。