論文の概要: The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization
- arxiv url: http://arxiv.org/abs/2008.06786v1
- Date: Sat, 15 Aug 2020 20:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:44:04.710183
- Title: The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization
- Title(参考訳): 高次元の神経接核:三重降下と一般化の多スケール理論
- Authors: Ben Adlam and Jeffrey Pennington
- Abstract要約: 現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
- 参考スコア(独自算出の注目度): 34.235007566913396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep learning models employ considerably more parameters than required
to fit the training data. Whereas conventional statistical wisdom suggests such
models should drastically overfit, in practice these models generalize
remarkably well. An emerging paradigm for describing this unexpected behavior
is in terms of a \emph{double descent} curve, in which increasing a model's
capacity causes its test error to first decrease, then increase to a maximum
near the interpolation threshold, and then decrease again in the
overparameterized regime. Recent efforts to explain this phenomenon
theoretically have focused on simple settings, such as linear regression or
kernel regression with unstructured random features, which we argue are too
coarse to reveal important nuances of actual neural networks. We provide a
precise high-dimensional asymptotic analysis of generalization under kernel
regression with the Neural Tangent Kernel, which characterizes the behavior of
wide neural networks optimized with gradient descent. Our results reveal that
the test error has non-monotonic behavior deep in the overparameterized regime
and can even exhibit additional peaks and descents when the number of
parameters scales quadratically with the dataset size.
- Abstract(参考訳): 最新のディープラーニングモデルは、トレーニングデータに適合するために必要なパラメータをはるかに多く採用している。
従来の統計的知恵ではそのようなモデルは非常に過度に適合するべきであるが、実際にはこれらのモデルは極めてよく一般化されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、モデルのキャパシティが最初にテストエラーを減少させ、補間しきい値付近で最大値まで増加し、次に過度にパラメータ化された状態において再び減少するという、'emph{double descend}曲線である。
この現象を理論的に説明しようとする最近の取り組みは、線形回帰や非構造なランダム特徴を持つカーネル回帰といった単純な設定に焦点を合わせており、実際のニューラルネットワークの重要なニュアンスを明らかにするには粗すぎると主張している。
勾配降下に最適化された広帯域ニューラルネットワークの挙動を特徴付けるニューラルタンジェントカーネルを用いて,カーネル回帰による一般化の高精度な高次元漸近解析を行う。
実験結果から, 実験誤差は過パラメータ化状態の深い非単調な挙動を示し, パラメータ数がデータセットサイズと2次的にスケールする場合に, 追加のピークや降下を示すことができることがわかった。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - On the Asymptotic Learning Curves of Kernel Ridge Regression under
Power-law Decay [17.306230523610864]
ノイズレベルが小さい場合のみ、非常に広いニューラルネットワークに「良性オーバーフィッティング現象」が存在することを示す。
この現象は,ノイズレベルが小さい場合にのみ,非常に広いニューラルネットワークに存在することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T11:18:13Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Second-order regression models exhibit progressive sharpening to the
edge of stability [30.92413051155244]
2次元の二次目標に対して、2階回帰モデルでは、安定性の端とわずかに異なる値に対して進行的なシャープ化を示すことを示す。
より高次元では、モデルはニューラルネットワークの特定の構造がなくても、概して同様の振る舞いを示す。
論文 参考訳(メタデータ) (2022-10-10T17:21:20Z) - The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks [26.58848653965855]
準均質モデルのクラスを導入し、同質な活性化を伴うほぼ全てのニューラルネットワークを記述するのに十分な表現性を示す。
すべてのパラメータが等しく扱われる同質なモデルの場合とは異なり、勾配流はパラメータのサブセットを暗黙的に好んでいる。
論文 参考訳(メタデータ) (2022-10-07T21:14:09Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。