論文の概要: When Do Neural Networks Outperform Kernel Methods?
- arxiv url: http://arxiv.org/abs/2006.13409v2
- Date: Tue, 9 Nov 2021 21:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:51:33.643217
- Title: When Do Neural Networks Outperform Kernel Methods?
- Title(参考訳): ニューラルネットワークはいつカーネルメソッドを上回るのか?
- Authors: Behrooz Ghorbani, Song Mei, Theodor Misiakiewicz, Andrea Montanari
- Abstract要約: いくつかの分類タスクでは、RKHSメソッドがNNを置き換えることができるが、性能に大きな損失は生じない。
このような潜在低次元構造が画像分類に存在しているという仮説を立てる。
- 参考スコア(独自算出の注目度): 27.212743275697825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a certain scaling of the initialization of stochastic gradient descent
(SGD), wide neural networks (NN) have been shown to be well approximated by
reproducing kernel Hilbert space (RKHS) methods. Recent empirical work showed
that, for some classification tasks, RKHS methods can replace NNs without a
large loss in performance. On the other hand, two-layers NNs are known to
encode richer smoothness classes than RKHS and we know of special examples for
which SGD-trained NN provably outperform RKHS. This is true even in the wide
network limit, for a different scaling of the initialization.
How can we reconcile the above claims? For which tasks do NNs outperform
RKHS? If covariates are nearly isotropic, RKHS methods suffer from the curse of
dimensionality, while NNs can overcome it by learning the best low-dimensional
representation. Here we show that this curse of dimensionality becomes milder
if the covariates display the same low-dimensional structure as the target
function, and we precisely characterize this tradeoff. Building on these
results, we present the spiked covariates model that can capture in a unified
framework both behaviors observed in earlier work.
We hypothesize that such a latent low-dimensional structure is present in
image classification. We test numerically this hypothesis by showing that
specific perturbations of the training distribution degrade the performances of
RKHS methods much more significantly than NNs.
- Abstract(参考訳): 確率勾配降下(SGD)の初期化のある程度のスケーリングにおいて、広帯域ニューラルネットワーク(NN)は、カーネルヒルベルト空間(RKHS)の再現法によってよく近似されていることが示されている。
最近の実証研究により、いくつかの分類タスクにおいて、RKHS法はNNを大幅な性能低下なしに置き換えることができることが示された。
一方、2層NNはRKHSよりもリッチなスムーズネスクラスを符号化することが知られており、SGD訓練NNがRKHSを確実に上回る特別な例が知られている。
これは、初期化の異なるスケーリングのために、ネットワークの制限が広い場合でも当てはまります。
上記の主張をどう和解させるか。
NNはどのタスクでRKHSを上回るのか?
共変量はほぼ等方性である場合、RKHS法は次元の呪いに悩まされ、NNは最良の低次元表現を学ぶことでそれを克服することができる。
ここでは、この次元の呪いが、目的関数と同じ低次元構造を示す場合、より穏やかになり、このトレードオフを正確に特徴づける。
これらの結果に基づいて、初期の作業で観察された両方の振る舞いを統一したフレームワークでキャプチャできるスパイクされた共変量モデルを示す。
このような潜在低次元構造が画像分類に存在していると仮定する。
トレーニング分布の特定の摂動が、NNよりもRKHS法の性能を著しく低下させることを示すことにより、この仮説を数値的に検証する。
関連論文リスト
- Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - When Do Graph Neural Networks Help with Node Classification?
Investigating the Impact of Homophily Principle on Node Distinguishability [92.8279562472538]
ホモフィリー原理は、ノード分類タスクにおけるニューラルネットワークよりもグラフネットワーク(GNN)の性能上の優位性の主要な理由であると考えられている。
最近の研究は、ホモフィリーがなくても、同じクラスのノードが類似した近隣パターンを共有する限り、GNNの利点は依然として存在することを示唆している。
論文 参考訳(メタデータ) (2023-04-25T09:40:47Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Free Hyperbolic Neural Networks with Limited Radii [32.42488915688723]
双曲型空間で直接動作する双曲型ニューラルネットワーク(HNN)は、双曲型表現の可能性をさらに活用するために最近提案されている。
HNNは、暗黙の階層構造を持つデータセット上でのユークリッドニューラルネットワーク(ENN)よりも優れたパフォーマンスを実現しているが、CIFARやImageNetのような標準分類ベンチマークでは依然としてパフォーマンスが低い。
本稿では、まず、標準認識データセットにおけるHNNの劣悪な性能が、悪名高い失効勾配問題に起因することを示す実証的研究を行う。
我々の分析は、常に双曲的埋め込みを規則化する、Feature Clippingと呼ばれるシンプルだが効果的なソリューションをもたらす。
論文 参考訳(メタデータ) (2021-07-23T22:10:16Z) - Neural Optimization Kernel: Towards Robust Deep Learning [13.147925376013129]
近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
論文 参考訳(メタデータ) (2021-06-11T00:34:55Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Understanding and Resolving Performance Degradation in Graph
Convolutional Networks [105.14867349802898]
グラフ畳み込みネットワーク(GCN)は複数のレイヤを積み重ね、グラフ構造化データ上でノード表現を学習するためのPROPとTRANを実行する。
GCNはモデルが深くなるとパフォーマンスが低下する傾向がある。
本稿では,TRANやPROPのみを積み重ねることによるGCNの性能劣化について実験的に検討する。
論文 参考訳(メタデータ) (2020-06-12T12:12:12Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。