論文の概要: The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training
- arxiv url: http://arxiv.org/abs/2007.12826v3
- Date: Thu, 9 Jun 2022 01:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:52:27.284570
- Title: The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training
- Title(参考訳): ニューラルネットワークにおける補間相転移:遅延学習時の記憶と一般化
- Authors: Andrea Montanari and Yiqiao Zhong
- Abstract要約: ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
- 参考スコア(独自算出の注目度): 10.72393527290646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural networks are often operated in a strongly overparametrized
regime: they comprise so many parameters that they can interpolate the training
set, even if actual labels are replaced by purely random ones. Despite this,
they achieve good prediction error on unseen data: interpolating the training
set does not lead to a large generalization error. Further, overparametrization
appears to be beneficial in that it simplifies the optimization landscape. Here
we study these phenomena in the context of two-layers neural networks in the
neural tangent (NT) regime. We consider a simple data model, with isotropic
covariates vectors in $d$ dimensions, and $N$ hidden neurons. We assume that
both the sample size $n$ and the dimension $d$ are large, and they are
polynomially related. Our first main result is a characterization of the
eigenstructure of the empirical NT kernel in the overparametrized regime $Nd\gg
n$. This characterization implies as a corollary that the minimum eigenvalue of
the empirical NT kernel is bounded away from zero as soon as $Nd\gg n$, and
therefore the network can exactly interpolate arbitrary labels in the same
regime.
Our second main result is a characterization of the generalization error of
NT ridge regression including, as a special case, min-$\ell_2$ norm
interpolation. We prove that, as soon as $Nd\gg n$, the test error is well
approximated by the one of kernel ridge regression with respect to the
infinite-width kernel. The latter is in turn well approximated by the error of
polynomial ridge regression, whereby the regularization parameter is increased
by a `self-induced' term related to the high-degree components of the
activation function. The polynomial degree depends on the sample size and the
dimension (in particular on $\log n/\log d$).
- Abstract(参考訳): 現代のニューラルネットワークは、非常に多くのパラメータで構成されており、実際のラベルが純粋なランダムなパラメータに置き換えられたとしても、トレーニングセットを補間することができる。
トレーニングセットを補間しても大きな一般化エラーにはならない。
さらに、過パラメトリゼーションは最適化のランドスケープを単純化するという点で有益である。
本稿では,神経接(nt)領域における2層ニューラルネットワークの文脈におけるこれらの現象について検討する。
我々は、$d$次元の等方共変ベクトルと$N$隠れニューロンを持つ単純なデータモデルを考える。
サンプルサイズ$n$と次元$d$はともに大きいと仮定し、それらは多項式的に関連している。
最初の主な結果は、オーバーパラメータ化した$nd\gg n$ における経験的ntカーネルの固有構造の特徴である。
この特徴付けは、経験的 NT 核の最小固有値が$Nd\gg n$ で 0 から切り離され、従ってネットワークは同じ状態の任意のラベルを正確に補間できることを意味する。
2つ目の主な結果は、特別の場合としてmin-$\ell_2$ノルム補間を含むNTリッジ回帰の一般化誤差の特性である。
我々は、$nd\gg n$ の時点で、テストエラーは無限幅カーネルに対するカーネルリッジ回帰の1つによってよく近似されていることを証明している。
後者は多項式リッジ回帰の誤差によりよく近似され、そこでは活性化関数の高次成分に関連する「自己誘導」項によって正規化パラメータが増加する。
多項式の次数は標本のサイズと次元に依存する(特に$\log n/\log d$)。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - On the Generalization Power of Overfitted Two-Layer Neural Tangent
Kernel Models [42.72822331030195]
min $ell$-norm overfitting solution for the neural tangent kernel (NTK) model of a two-layer neural network. (英語)
本研究では, 地上真理関数に応じて, NTKモデルの試験誤差は, 「二重日射」と異なる特性を示すことを示した。
このクラス以外の関数に対しては、$n$ と $p$ の両方が大きかったとしても 0 に減少しない一般化エラーの低い境界を提供します。
論文 参考訳(メタデータ) (2021-03-09T06:24:59Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。