論文の概要: Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network
- arxiv url: http://arxiv.org/abs/2007.02486v2
- Date: Sat, 25 Sep 2021 12:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 01:25:47.868519
- Title: Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network
- Title(参考訳): 正規化問題:過度パラメータ化ニューラルネットワークの非パラメトリック視点
- Authors: Tianyang Hu, Wenjia Wang, Cong Lin, Guang Cheng
- Abstract要約: タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
- 参考スコア(独自算出の注目度): 20.132432350255087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparametrized neural networks trained by gradient descent (GD) can
provably overfit any training data. However, the generalization guarantee may
not hold for noisy data. From a nonparametric perspective, this paper studies
how well overparametrized neural networks can recover the true target function
in the presence of random noises. We establish a lower bound on the $L_2$
estimation error with respect to the GD iterations, which is away from zero
without a delicate scheme of early stopping. In turn, through a comprehensive
analysis of $\ell_2$-regularized GD trajectories, we prove that for
overparametrized one-hidden-layer ReLU neural network with the $\ell_2$
regularization: (1) the output is close to that of the kernel ridge regression
with the corresponding neural tangent kernel; (2) minimax {optimal} rate of
$L_2$ estimation error can be achieved. Numerical experiments confirm our
theory and further demonstrate that the $\ell_2$ regularization approach
improves the training robustness and works for a wider range of neural
networks.
- Abstract(参考訳): 勾配降下(gd)によって訓練された過パラメータニューラルネットワークは、任意のトレーニングデータに確実にオーバーフィットすることができる。
しかし、一般化保証はノイズデータには保持されない。
非パラメトリックな観点からは、ニューラルネットワークがランダムノイズの存在下で真のターゲット関数を回復できるかどうかを考察する。
我々は,早期停止の微妙なスキームを伴わずにゼロから離れたgd反復に関して,$l_2$推定誤差の下限を確立する。
次に、$\ell_2$-正規化gd軌道の包括的解析により、$\ell_2$正規化を伴う過小パラメータ1層reluニューラルネットワークにおいて、(1)出力が対応する神経接核を持つカーネルリッジ回帰の出力に近いこと、(2)minimax {optimal}レートが$l_2$推定誤差となることを証明する。
数値実験により,$\ell_2$正規化手法がトレーニングの堅牢性を改善し,より広い範囲のニューラルネットワークに対して有効であることが確認された。
関連論文リスト
- Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression: A Distribution-Free Analysis [19.988762532185884]
ニューラルネットワークが早期停止でGDによってトレーニングされている場合、トレーニングされたネットワークは、非パラメトリック回帰リスクが$cO(eps_n2)$のシャープレートを示す。
本研究の結果は,トレーニングデータに分布的な仮定を必要としないことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T08:43:54Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Provable Identifiability of Two-Layer ReLU Neural Networks via LASSO
Regularization [15.517787031620864]
LASSOの領域は、ファッショナブルで強力な非線形回帰モデルである2層ReLUニューラルネットワークに拡張される。
LASSO推定器はニューラルネットワークを安定的に再構築し,サンプル数が対数的にスケールする場合に$mathcalSstar$を識別可能であることを示す。
我々の理論は、2層ReLUニューラルネットワークのための拡張Restricted Isometry Property (RIP)ベースの分析フレームワークにある。
論文 参考訳(メタデータ) (2023-05-07T13:05:09Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Nonparametric Regression with Shallow Overparameterized Neural Networks
Trained by GD with Early Stopping [11.24426822697648]
GD(Gradient Descent)によってトレーニングされたニューラルネットワークは,入力に対してスムーズであることを示す。
ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。
論文 参考訳(メタデータ) (2021-07-12T11:56:53Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Sample Complexity and Overparameterization Bounds for Projection-Free
Neural TD Learning [38.730333068555275]
神経td学習の既存の解析は、無限幅解析または(ランダム)コンパクト集合内のネットワークパラメータの制約に依存している。
poly(overlinenu,1/epsilon)$以上の幅の2層reluネットワークを備えたプロジェクションフリーtd学習は、$poly(overlinenu,1/epsilon)$イテレーションまたはサンプルを与えられたエラー$epsilon$で真の値関数に収束する。
論文 参考訳(メタデータ) (2021-03-02T01:05:19Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。