論文の概要: Towards an Understanding of Benign Overfitting in Neural Networks
- arxiv url: http://arxiv.org/abs/2106.03212v1
- Date: Sun, 6 Jun 2021 19:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:33:53.912822
- Title: Towards an Understanding of Benign Overfitting in Neural Networks
- Title(参考訳): ニューラルネットワークにおける良性過剰の理解に向けて
- Authors: Zhu Li, Zhi-Hua Zhou, Arthur Gretton
- Abstract要約: 現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
- 参考スコア(独自算出の注目度): 104.2956323934544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning models often employ a huge number of parameters and
are typically optimized to have zero training loss; yet surprisingly, they
possess near-optimal prediction performance, contradicting classical learning
theory. We examine how these benign overfitting phenomena occur in a two-layer
neural network setting where sample covariates are corrupted with noise. We
address the high dimensional regime, where the data dimension $d$ grows with
the number $n$ of data points. Our analysis combines an upper bound on the bias
with matching upper and lower bounds on the variance of the interpolator (an
estimator that interpolates the data). These results indicate that the excess
learning risk of the interpolator decays under mild conditions. We further show
that it is possible for the two-layer ReLU network interpolator to achieve a
near minimax-optimal learning rate, which to our knowledge is the first
generalization result for such networks. Finally, our theory predicts that the
excess learning risk starts to increase once the number of parameters $s$ grows
beyond $O(n^2)$, matching recent empirical findings.
- Abstract(参考訳): 現代の機械学習モデルは、多くのパラメータを使用し、一般的にトレーニング損失ゼロに最適化されているが、驚くべきことに、それらは最適に近い予測性能を持ち、古典的学習理論と矛盾する。
サンプル共変数がノイズで崩壊する2層ニューラルネットワークにおいて,これらの良性過剰フィッティング現象がどのように発生するかを検討する。
我々は、データ次元$d$が、データポイント数$n$で成長する高次元構造に対処する。
本解析では, バイアス上の上限と, 補間器(データを補間する推定器)の分散上の上限とを組み合わせる。
これらの結果から,補間器の過剰な学習リスクは軽度条件下で低下することが示唆された。
さらに、この2層ReLUネットワーク補間器が、そのようなネットワークに対する最初の一般化結果である極小最適学習率を達成可能であることを示す。
最後に、我々の理論は、パラメータs$が$O(n^2)$を超えると、過剰な学習リスクが増加し始めることを予測し、最近の経験的発見と一致する。
関連論文リスト
- Deep learning from strongly mixing observations: Sparse-penalized regularization and minimax optimality [0.0]
ディープニューラルネットワーク予測器のスパースペナル化正規化について検討する。
正方形と幅広い損失関数を扱う。
論文 参考訳(メタデータ) (2024-06-12T15:21:51Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。