論文の概要: A Theory of Generalization in Deep Learning
- arxiv url: http://arxiv.org/abs/2605.01172v1
- Date: Sat, 02 May 2026 00:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.626868
- Title: A Theory of Generalization in Deep Learning
- Title(参考訳): ディープラーニングにおける一般化の理論
- Authors: Elon Litman, Gabe Guo,
- Abstract要約: 本稿では、経験的ニューラルネットワークカーネルが出力空間を分割する深層学習における一般化の非漸近理論を提案する。
信号チャネル内において、ミニバッチSGDは、コヒーレント集団信号が高速な線形ドリフトを介して蓄積されることを保証する一方、慣用的暗記は遅く、拡散的なランダムウォークに抑制される。
この理論は、良心過剰、二重降下、暗黙の偏見、滑稽といった深層学習理論の異なる現象を自然に説明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a non-asymptotic theory of generalization in deep learning where the empirical neural tangent kernel partitions the output space. In directions corresponding to signal, error dissipates rapidly; in the vast orthogonal dimensions corresponding to noise, the kernel's near-zero eigenvalues trap residual error in a test-invisible reservoir. Within the signal channel, minibatch SGD ensures that coherent population signal accumulates via fast linear drift, while idiosyncratic memorization is suppressed into a slow, diffusive random walk. We prove generalization survives even when the kernel evolves $\mathcal{O}(1)$ in operator norm, the full feature-learning regime. This theory naturally explains disparate phenomena in deep learning theory, such as benign overfitting, double descent, implicit bias, and grokking. Lastly, we derive an exact population-risk objective from a single training run with no validation data, for any architecture, loss, or optimizer, and prove that it measures precisely the noise in the signal channel. This objective reduces in practice to an SNR preconditioner on top of Adam, adding one state vector at no extra cost; it accelerates grokking by $5 \times$, suppresses memorization in PINNs and implicit neural representations, and improves DPO fine-tuning under noisy preferences while staying $3 \times$ closer to the reference policy.
- Abstract(参考訳): 本稿では、経験的ニューラルネットワークカーネルが出力空間を分割する深層学習における一般化の非漸近理論を提案する。
信号に対応する方向では、エラーは急速に拡散し、ノイズに対応する広大な直交次元では、カーネルの近ゼロ固有値がテスト不能な貯水池で残留誤差を捕捉する。
信号チャネル内において、ミニバッチSGDは、コヒーレント集団信号が高速な線形ドリフトを介して蓄積されることを保証する一方、慣用的暗記は遅く、拡散的なランダムウォークに抑制される。
我々は、カーネルが演算ノルムにおいて$\mathcal{O}(1)$を進化させたとしても、一般化は生き残ることを証明している。
この理論は、良心過剰、二重降下、暗黙の偏見、滑稽といった深層学習理論の異なる現象を自然に説明している。
最後に,どのアーキテクチャや損失,オプティマイザに対しても,検証データのない単一トレーニング実行から正確な人口リスク目標を導出し,信号チャネルのノイズを正確に測定することを証明する。
この目的は、実際にはAdamの上のSNRプリコンディショナーに還元され、1つの状態ベクトルを余分なコストで追加する; 5 \times$でグルーキングを加速し、PINNの記憶と暗黙のニューラル表現を抑え、DPOの微調整をノイズの多い好みで改善し、基準ポリシーに3 \times$で近づきながら改善する。
関連論文リスト
- One-Step Early Stopping Strategy using Neural Tangent Kernel Theory and Rademacher Complexity [0.0]
早期停止戦略は、トレーニングエラーが最小限になる前に、入力データのセット$S$でニューラルネットワーク(NN)のトレーニングプロセスを止めることである。
ここでは、初期訓練誤差ベクトルとニューラル・タンジェント・カーネルの固有値を含む最適停止時間を解析的に推定する。
論文 参考訳(メタデータ) (2024-11-27T23:22:28Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Nonparametric Regression with Shallow Overparameterized Neural Networks
Trained by GD with Early Stopping [11.24426822697648]
GD(Gradient Descent)によってトレーニングされたニューラルネットワークは,入力に対してスムーズであることを示す。
ノイズフリーの場合、証明はいかなる核化にも依存せず、有限幅の結果と見なすことができる。
論文 参考訳(メタデータ) (2021-07-12T11:56:53Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。