論文の概要: Benign Overfitting in Deep Neural Networks under Lazy Training
- arxiv url: http://arxiv.org/abs/2305.19377v1
- Date: Tue, 30 May 2023 19:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:46:11.890530
- Title: Benign Overfitting in Deep Neural Networks under Lazy Training
- Title(参考訳): 遅延トレーニングによる深部ニューラルネットワークの良性オーバーフィッティング
- Authors: Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Francesco Locatello,
Volkan Cevher
- Abstract要約: データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
- 参考スコア(独自算出の注目度): 72.28294823115502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on over-parameterized deep neural networks (DNNs) with
ReLU activation functions and proves that when the data distribution is
well-separated, DNNs can achieve Bayes-optimal test error for classification
while obtaining (nearly) zero-training error under the lazy training regime.
For this purpose, we unify three interrelated concepts of overparameterization,
benign overfitting, and the Lipschitz constant of DNNs. Our results indicate
that interpolating with smoother functions leads to better generalization.
Furthermore, we investigate the special case where interpolating smooth
ground-truth functions is performed by DNNs under the Neural Tangent Kernel
(NTK) regime for generalization. Our result demonstrates that the
generalization error converges to a constant order that only depends on label
noise and initialization noise, which theoretically verifies benign
overfitting. Our analysis provides a tight lower bound on the normalized margin
under non-smooth activation functions, as well as the minimum eigenvalue of NTK
under high-dimensional settings, which has its own interest in learning theory.
- Abstract(参考訳): 本稿では,reluアクティベーション関数を持つ過パラメータ深層ニューラルネットワーク(dnns)に着目し,データ分散が十分に分離された場合,遅延学習環境下でゼロトレーニングエラーを(ほぼ)獲得しながら,分類のためのベイズ最適テストエラーをdnnが達成できることを実証する。
この目的のために、DNNの過パラメータ化、良性オーバーフィッティング、リプシッツ定数の3つの相互関連概念を統一する。
よりスムーズな関数との補間はより一般化をもたらすことを示す。
さらに,Nutral Tangent Kernel (NTK) 体制下でのDNNによるスムーズな接地構造関数の補間を行う場合について検討した。
その結果、一般化誤差はラベルノイズと初期化ノイズのみに依存する一定の順序に収束し、理論的には良性過剰を検証できることを示した。
本解析は,非スムース活性化関数の下での正規化マージンと,学習理論に独自の関心を持つ高次元条件下でのntkの最小固有値の厳密な下界を与える。
関連論文リスト
- Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks [12.018422134251384]
このクラスでは、トレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが矛盾していることが示される。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適率(過剰リスク)を与えることが保証されたとき、同じ規則を極大最適率を達成するために使うことができることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:56:27Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Uniform Generalization Bounds for Overparameterized Neural Networks [5.945320097465419]
カーネルシステムにおけるオーバーパラメータ化ニューラルネットワークに対する一様一般化バウンダリを証明した。
我々の境界は、アクティベーション関数の微分可能性に応じて正確な誤差率をキャプチャする。
NTカーネルに対応するRKHSと、Mat'ernカーネルのファミリーに対応するRKHSの等価性を示す。
論文 参考訳(メタデータ) (2021-09-13T16:20:13Z) - Advantage of Deep Neural Networks for Estimating Functions with
Singularity on Hypersurfaces [23.21591478556582]
我々は、ディープニューラルネットワーク(DNN)が他の標準手法よりも優れている理由を説明するために、ミニマックスレート分析を開発する。
本研究では,超曲面上の特異点を持つ非滑らか関数のクラスを推定することにより,このギャップを埋めようとしている。
論文 参考訳(メタデータ) (2020-11-04T12:51:14Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。