論文の概要: Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2006.13198v6
- Date: Fri, 4 Feb 2022 21:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:44:52.685787
- Title: Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks
- Title(参考訳): スペクトルバイアスとタスクモデルアライメントによるカーネル回帰と無限大ニューラルネットワークの一般化
- Authors: Abdulkadir Canatar, Blake Bordelon, Cengiz Pehlevan
- Abstract要約: トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
- 参考スコア(独自算出の注目度): 17.188280334580195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization beyond a training dataset is a main goal of machine learning,
but theoretical understanding of generalization remains an open problem for
many models. The need for a new theory is exacerbated by recent observations in
deep neural networks where overparameterization leads to better performance,
contradicting the conventional wisdom from classical statistics. In this paper,
we investigate generalization error for kernel regression, which, besides being
a popular machine learning method, also includes infinitely overparameterized
neural networks trained with gradient descent. We use techniques from
statistical mechanics to derive an analytical expression for generalization
error applicable to any kernel or data distribution. We present applications of
our theory to real and synthetic datasets, and for many kernels including those
that arise from training deep neural networks in the infinite-width limit. We
elucidate an inductive bias of kernel regression to explain data with "simple
functions", which are identified by solving a kernel eigenfunction problem on
the data distribution. This notion of simplicity allows us to characterize
whether a kernel is compatible with a learning task, facilitating good
generalization performance from a small number of training examples. We show
that more data may impair generalization when noisy or not expressible by the
kernel, leading to non-monotonic learning curves with possibly many peaks. To
further understand these phenomena, we turn to the broad class of rotation
invariant kernels, which is relevant to training deep neural networks in the
infinite-width limit, and present a detailed mathematical analysis of them when
data is drawn from a spherically symmetric distribution and the number of input
dimensions is large.
- Abstract(参考訳): トレーニングデータセットを超えた一般化は機械学習の主目的であるが、一般化の理論的理解は多くのモデルにとってオープンな問題である。
新しい理論の必要性は、オーバーパラメータ化によってパフォーマンスが向上するディープニューラルネットワークの最近の観測によって悪化し、古典統計学の従来の知恵と矛盾する。
本稿では,カーネル回帰の一般化誤差について検討する。これは一般的な機械学習手法であるだけでなく,勾配降下法で訓練された無限に過パラメータ化されたニューラルネットワークも含む。
統計力学の手法を用いて,任意のカーネルやデータ分布に適用可能な一般化誤差の解析式を導出する。
我々は,この理論を実および合成データセットに適用し,無限幅極限でのディープニューラルネットワークのトレーニングから生じる多くのカーネルに適用する。
データ分散におけるカーネル固有関数問題を解くことにより、カーネル回帰の帰納バイアスを解明し、"単純な関数"でデータを説明する。
このシンプルさの概念は、カーネルが学習タスクと互換性があるかどうかを特徴付けることができ、少数のトレーニング例から優れた一般化性能を実現する。
より多くのデータは、カーネルがノイズや表現できないときに一般化を損なう可能性を示し、おそらくピーク数が多い非単調学習曲線に繋がる。
これらの現象をより深く理解するために、無限幅限界における深部ニューラルネットワークのトレーニングに関係した幅広い回転不変カーネルのクラスに目を向け、球対称分布からデータを引き出して入力次元の数が大きくなると、それらの詳細な数学的解析を行う。
関連論文リスト
- A theory of data variability in Neural Network Bayesian inference [0.70224924046445]
無限広ネットワークの一般化特性をカバーする場理論形式論を提供する。
入力の統計的性質から一般化特性を導出する。
データ可変性は、(varphi3+varphi4$)-理論を思い起こさせる非ガウス的作用をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-31T14:11:32Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Neural Networks as Kernel Learners: The Silent Alignment Effect [86.44610122423994]
遅延トレーニング体制におけるニューラルネットワークは、カーネルマシンに収束する。
これは、サイレントアライメント(サイレントアライメント)という現象のためである。
また、非白データは無声アライメント効果を弱めることを示した。
論文 参考訳(メタデータ) (2021-10-29T18:22:46Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Out-of-Distribution Generalization in Kernel Regression [21.958028127426196]
トレーニングとテストの分布が異なる場合のカーネル回帰の一般化について検討する。
与えられたカーネルの分布間のミスマッチを定量化する重なり行列を同定する。
本研究では,データ予算に対するトレーニングとテストの配分を最適化する手法を開発し,そのシフトの下で最良のケースと最悪のケースの一般化を求める。
論文 参考訳(メタデータ) (2021-06-04T04:54:25Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Generalization Error of Generalized Linear Models in High Dimensions [25.635225717360466]
任意の非線形性を持つニューラルネットワークを特徴付けるためのフレームワークを提供する。
正規ロジスティック回帰が学習に与える影響を解析する。
また,本モデルでは,特別事例の学習と配布の事例も捉えている。
論文 参考訳(メタデータ) (2020-05-01T02:17:47Z) - Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural
Networks [17.188280334580195]
トレーニングサンプル数の関数として,カーネル回帰の一般化性能に関する解析式を導出する。
我々の表現は、トレーニングとニューラルカーネル・タンジェント(NTK)によるカーネル回帰の等価性により、広いニューラルネットワークに適用される。
我々は、合成データとMNISTデータセットのシミュレーションを用いて、我々の理論を検証する。
論文 参考訳(メタデータ) (2020-02-07T00:03:40Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。