論文の概要: Generalization Ability of Wide Neural Networks on $\mathbb{R}$
- arxiv url: http://arxiv.org/abs/2302.05933v1
- Date: Sun, 12 Feb 2023 15:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:50:38.107333
- Title: Generalization Ability of Wide Neural Networks on $\mathbb{R}$
- Title(参考訳): $\mathbb{R}$上のワイドニューラルネットワークの一般化能力
- Authors: Jianfa Lai, Manyun Xu, Rui Chen and Qian Lin
- Abstract要約: 広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。
$i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
- 参考スコア(独自算出の注目度): 8.508360765158326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We perform a study on the generalization ability of the wide two-layer ReLU
neural network on $\mathbb{R}$. We first establish some spectral properties of
the neural tangent kernel (NTK): $a)$ $K_{d}$, the NTK defined on
$\mathbb{R}^{d}$, is positive definite; $b)$ $\lambda_{i}(K_{1})$, the $i$-th
largest eigenvalue of $K_{1}$, is proportional to $i^{-2}$. We then show that:
$i)$ when the width $m\rightarrow\infty$, the neural network kernel (NNK)
uniformly converges to the NTK; $ii)$ the minimax rate of regression over the
RKHS associated to $K_{1}$ is $n^{-2/3}$; $iii)$ if one adopts the early
stopping strategy in training a wide neural network, the resulting neural
network achieves the minimax rate; $iv)$ if one trains the neural network till
it overfits the data, the resulting neural network can not generalize well.
Finally, we provide an explanation to reconcile our theory and the widely
observed ``benign overfitting phenomenon''.
- Abstract(参考訳): 広帯域2層ReLUニューラルネットワークの一般化能力について,$\mathbb{R}$上で検討する。
まず、神経接核(NTK):$a)$$K_{d}$、$\mathbb{R}^{d}$で定義されるNTKは正定値、$b)$$$\lambda_{i}(K_{1})$、$K_{1}$の$i$-最大の固有値は$i^{-2}$に比例する。
i)$ 幅$m\rightarrow\infty$ ニューラルネットワークカーネル (nnk) が ntk に一様に収束する; $ii)$k_{1}$ に関連する rkhs 上の最小回帰率 (minimax rate) が $n^{-2/3}$; $iii)$ 広いニューラルネットワークのトレーニングで早期停止戦略を採用すると、結果のニューラルネットワークがminimaxレートを達成する; $iv)$ データを満たすまでニューラルネットワークをトレーニングすれば、ニューラルネットワークはうまく一般化できない。
最後に、我々の理論と広く観察されている「良性過剰適合現象」を解明するための説明を与える。
関連論文リスト
- On the Impacts of the Random Initialization in the Neural Tangent Kernel Theory [10.360517127652185]
ネットワークの幅が無限大になる傾向があるため、ランダム初期化を伴うニューラルネットワークはガウス過程$fmathrmGP$に収束することが知られている。
カーネルレグレッションの伝統的な理論を採用するため、最近の研究は、ネットワークの出力が開始時にゼロであることを保証するために、特別なミラー化されたアーキテクチャを導入した。
論文 参考訳(メタデータ) (2024-10-08T02:22:50Z) - Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。
そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文 参考訳(メタデータ) (2023-07-24T00:16:50Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。