論文の概要: Statistical Optimality of Deep Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2305.02657v2
- Date: Wed, 28 Jun 2023 02:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:40:50.218912
- Title: Statistical Optimality of Deep Wide Neural Networks
- Title(参考訳): 深部ニューラルネットワークの統計的最適性
- Authors: Yicheng Li, Zixiong Yu, Guhan Chen, Qian Lin
- Abstract要約: まず、ニューラルネットワークの一般化能力は、対応するディープ・ニューラル・タンジェント・カーネル(NTK)の回帰によって完全に特徴づけられることを示した。
カーネルレグレッションの確立された理論により、勾配降下により訓練された多層ワイドニューラルネットワークは、最小最大速度を達成することができると結論付ける。
- 参考スコア(独自算出の注目度): 11.185777026737991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the generalization ability of deep wide
feedforward ReLU neural networks defined on a bounded domain $\mathcal X
\subset \mathbb R^{d}$. We first demonstrate that the generalization ability of
the neural network can be fully characterized by that of the corresponding deep
neural tangent kernel (NTK) regression. We then investigate on the spectral
properties of the deep NTK and show that the deep NTK is positive definite on
$\mathcal{X}$ and its eigenvalue decay rate is $(d+1)/d$. Thanks to the well
established theories in kernel regression, we then conclude that multilayer
wide neural networks trained by gradient descent with proper early stopping
achieve the minimax rate, provided that the regression function lies in the
reproducing kernel Hilbert space (RKHS) associated with the corresponding NTK.
Finally, we illustrate that the overfitted multilayer wide neural networks can
not generalize well on $\mathbb S^{d}$. We believe our technical contributions
in determining the eigenvalue decay rate of NTK on $\mathbb R^{d}$ might be of
independent interests.
- Abstract(参考訳): 本稿では、有界領域 $\mathcal X \subset \mathbb R^{d}$ 上で定義された深いフィードフォワード ReLU ニューラルネットワークの一般化能力を考察する。
まず、ニューラルネットワークの一般化能力は、対応するディープ・ニューラル・タンジェント・カーネル(NTK)の回帰によって完全に特徴づけられることを示した。
次に、深部NTKのスペクトル特性を調査し、深部NTKが$\mathcal{X}$で正定値であり、その固有値減衰率は$(d+1)/d$であることを示す。
カーネル回帰の確立された理論により、対応するNTKに付随する再生カーネルヒルベルト空間(RKHS)に回帰関数が存在することを仮定して、勾配降下により訓練された多層ワイドニューラルネットワークが最小最大値を達成することを結論付ける。
最後に、オーバーフィットした多層ニューラルネットワークは$\mathbb S^{d}$ではうまく一般化できないことを示す。
我々は、$\mathbb r^{d}$ 上の ntk の固有値減衰率を決定する技術上の貢献は、独立した利益であると信じている。
関連論文リスト
- A Unified Kernel for Neural Network Learning [4.0759204898334715]
本稿では、勾配降下を伴うニューラルネットワークの学習力学を特徴付けるUnified Neural Kernel(UNK)を提案する。
UNK は NNGP と NTK の両方の制限特性を維持し、有限学習ステップで NTK に似た振る舞いを示す。
また、UNKカーネルの均一な厳密性と学習収束性を理論的に特徴づける。
論文 参考訳(メタデータ) (2024-03-26T07:55:45Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - An Empirical Analysis of the Laplace and Neural Tangent Kernels [0.0]
ニューラル・タンジェント・カーネル(Neural tangent kernel)は、無限幅ニューラルネットワークのパラメータ分布上に定義されたカーネル関数である。
ラプラス核とニューラル接核は同じヒルベルト空間を$mathbbSd-1$の空間で共有していることが示される。
論文 参考訳(メタデータ) (2022-08-07T16:18:02Z) - Uniform Generalization Bounds for Overparameterized Neural Networks [5.945320097465419]
カーネルシステムにおけるオーバーパラメータ化ニューラルネットワークに対する一様一般化バウンダリを証明した。
我々の境界は、アクティベーション関数の微分可能性に応じて正確な誤差率をキャプチャする。
NTカーネルに対応するRKHSと、Mat'ernカーネルのファミリーに対応するRKHSの等価性を示す。
論文 参考訳(メタデータ) (2021-09-13T16:20:13Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite
Networks [12.692279981822011]
指数線型単位(ELU)とガウス誤差線形単位(GELU)を持つ多層パーセプトロンの共分散関数を導出する。
我々は、幅広い活性化関数に対応する繰り返しカーネルの固定点ダイナミクスを解析する。
これまで研究されてきたニューラルネットワークカーネルとは異なり、これらの新しいカーネルは非自明な固定点ダイナミクスを示す。
論文 参考訳(メタデータ) (2020-02-20T01:25:39Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。