論文の概要: Uniform Generalization Bounds for Overparameterized Neural Networks
- arxiv url: http://arxiv.org/abs/2109.06099v1
- Date: Mon, 13 Sep 2021 16:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 19:45:01.816021
- Title: Uniform Generalization Bounds for Overparameterized Neural Networks
- Title(参考訳): 過パラメータニューラルネットワークに対する一様一般化境界
- Authors: Sattar Vakili, Michael Bromberg, Da-shan Shiu, Alberto Bernacchia
- Abstract要約: カーネルシステムにおけるオーバーパラメータ化ニューラルネットワークに対する一様一般化バウンダリを証明した。
我々の境界は、アクティベーション関数の微分可能性に応じて正確な誤差率をキャプチャする。
NTカーネルに対応するRKHSと、Mat'ernカーネルのファミリーに対応するRKHSの等価性を示す。
- 参考スコア(独自算出の注目度): 5.945320097465419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An interesting observation in artificial neural networks is their favorable
generalization error despite typically being extremely overparameterized. It is
well known that classical statistical learning methods often result in vacuous
generalization errors in the case of overparameterized neural networks.
Adopting the recently developed Neural Tangent (NT) kernel theory, we prove
uniform generalization bounds for overparameterized neural networks in kernel
regimes, when the true data generating model belongs to the reproducing kernel
Hilbert space (RKHS) corresponding to the NT kernel. Importantly, our bounds
capture the exact error rates depending on the differentiability of the
activation functions. In order to establish these bounds, we propose the
information gain of the NT kernel as a measure of complexity of the learning
problem. Our analysis uses a Mercer decomposition of the NT kernel in the basis
of spherical harmonics and the decay rate of the corresponding eigenvalues. As
a byproduct of our results, we show the equivalence between the RKHS
corresponding to the NT kernel and its counterpart corresponding to the
Mat\'ern family of kernels, that induces a very general class of models. We
further discuss the implications of our analysis for some recent results on the
regret bounds for reinforcement learning algorithms, which use
overparameterized neural networks.
- Abstract(参考訳): 人工ニューラルネットワークにおける興味深い観察は、通常極端に過度にパラメータ化されているにもかかわらず、良い一般化誤差である。
古典的統計学習法は、過パラメータのニューラルネットワークの場合、しばしば空白の一般化誤差をもたらすことが知られている。
最近開発されたニューラルタンジェント(NT)カーネル理論を応用して、実データ生成モデルがNTカーネルに対応する再生カーネルヒルベルト空間(RKHS)に属する場合、カーネル状態における過パラメータニューラルネットワークの均一な一般化境界を証明した。
重要なことに、我々の境界はアクティベーション関数の微分可能性に応じて正確な誤差率をキャプチャする。
これらの境界を確立するために,学習問題の複雑さの尺度としてNTカーネルの情報ゲインを提案する。
本解析では,球面高調波と対応する固有値の減衰率に基づいて,nt核のマーサー分解を用いる。
結果の副産物として、NT核に対応するRKHSと、非常に一般的なモデルのクラスを誘導するMatch\'ern族に対応するRKHSの同値性を示す。
我々はさらに,過パラメータニューラルネットワークを用いた強化学習アルゴリズムに対する後悔の限界に関する最近の結果に対する解析の意義について論じる。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - On the Eigenvalue Decay Rates of a Class of Neural-Network Related
Kernel Functions Defined on General Domains [10.360517127652185]
一般領域上で定義されたカーネル関数の大きなクラスの固有値減衰率(EDR)を決定するための戦略を提供する。
この種類のカーネル関数は含まれているが、異なる深さと様々なアクティベーション関数を持つニューラルネットワークに付随する神経タンジェントカーネルに限らない。
論文 参考訳(メタデータ) (2023-05-04T08:54:40Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Double-descent curves in neural networks: a new perspective using
Gaussian processes [9.153116600213641]
ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加とともに下降し、最適数のパラメータに達した後に成長する現象を記述している。
本稿では,ニューラルネットワークガウス過程カーネルのスペクトルの幅依存性として,経験的特徴共分散行列のスペクトル分布を特徴付けるために,ランダム行列理論の手法を用いる。
論文 参考訳(メタデータ) (2021-02-14T20:31:49Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z) - Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural
Networks [17.188280334580195]
トレーニングサンプル数の関数として,カーネル回帰の一般化性能に関する解析式を導出する。
我々の表現は、トレーニングとニューラルカーネル・タンジェント(NTK)によるカーネル回帰の等価性により、広いニューラルネットワークに適用される。
我々は、合成データとMNISTデータセットのシミュレーションを用いて、我々の理論を検証する。
論文 参考訳(メタデータ) (2020-02-07T00:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。