論文の概要: Efficient kernel surrogates for neural network-based regression
- arxiv url: http://arxiv.org/abs/2310.18612v1
- Date: Sat, 28 Oct 2023 06:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:29:40.077019
- Title: Efficient kernel surrogates for neural network-based regression
- Title(参考訳): ニューラルネットワークに基づく回帰のための効率的なカーネルサロゲート
- Authors: Saad Qadeer, Andrew Engel, Adam Tsou, Max Vargas, Panos Stinis, and
Tony Chiang
- Abstract要約: ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
特に、相対的なテスト損失のバウンダリを確立し、数値的なテストで検証し、カーネルの正則性を性能の重要な決定要因として特定する。
NTKの代わりにCKを使用するための理論的基盤を提供するのに加えて、我々のフレームワークは様々な近似の堅牢性を理解するための洞察を提供する。
- 参考スコア(独自算出の注目度): 0.8796261172196743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their immense promise in performing a variety of learning tasks, a
theoretical understanding of the effectiveness and limitations of Deep Neural
Networks (DNNs) has so far eluded practitioners. This is partly due to the
inability to determine the closed forms of the learned functions, making it
harder to assess their precise dependence on the training data and to study
their generalization properties on unseen datasets. Recent work has shown that
randomly initialized DNNs in the infinite width limit converge to kernel
machines relying on a Neural Tangent Kernel (NTK) with known closed form. These
results suggest, and experimental evidence corroborates, that empirical kernel
machines can also act as surrogates for finite width DNNs. The high
computational cost of assembling the full NTK, however, makes this approach
infeasible in practice, motivating the need for low-cost approximations. In the
current work, we study the performance of the Conjugate Kernel (CK), an
efficient approximation to the NTK that has been observed to yield fairly
similar results. For the regression problem of smooth functions and
classification using logistic regression, we show that the CK performance is
only marginally worse than that of the NTK and, in certain cases, is shown to
be superior. In particular, we establish bounds for the relative test losses,
verify them with numerical tests, and identify the regularity of the kernel as
the key determinant of performance. In addition to providing a theoretical
grounding for using CKs instead of NTKs, our framework provides insights into
understanding the robustness of the various approximants and suggests a recipe
for improving DNN accuracy inexpensively. We present a demonstration of this on
the foundation model GPT-2 by comparing its performance on a classification
task using a conventional approach and our prescription.
- Abstract(参考訳): さまざまな学習タスクを実行するという大きな約束にもかかわらず、Deep Neural Networks(DNN)の有効性と限界に関する理論的理解は、これまでのところ実践者を追い抜いている。
これは、学習した関数の閉形式を決定することができないことによるものであり、トレーニングデータへの正確な依存を評価し、未知のデータセットに対する一般化特性を研究するのが困難である。
近年の研究では、無限幅制限のランダム初期化DNNが、既知の閉形式を持つニューラルタンジェントカーネル(NTK)に依存するカーネルマシンに収束していることが示されている。
これらの結果は、経験的カーネルマシンが有限幅DNNのサロゲートとしても機能することを示す。
しかし、完全なntkを組み立てる計算コストが高いため、このアプローチは実現不可能となり、低コストな近似の必要性が高まった。
本研究は, NTK に対する効率的な近似である Conjugate Kernel (CK) の性能について検討し, ほぼ同様の結果を得た。
滑らかな関数の回帰問題とロジスティック回帰を用いた分類では、CK性能がNTKよりもわずかに劣っていることが示され、ある場合にはより優れていることが示されている。
特に、相対的なテスト損失のバウンダリを確立し、数値的なテストで検証し、カーネルの正則性を性能の重要な決定要因として特定する。
NTKの代わりにCKを使用するための理論的基盤を提供するのに加えて,本フレームワークは様々な近似の堅牢性を理解するための洞察を提供し,低コストでDNN精度を向上させるためのレシピを提案する。
本稿では,従来の手法と処方則を用いて分類タスクの性能を比較することで,基礎モデルGPT-2にこれを実証する。
関連論文リスト
- Kernel vs. Kernel: Exploring How the Data Structure Affects Neural Collapse [9.975341265604577]
ニューラル・コラプス(Neural Collapse)とは、NC1と呼ばれるネットワークの最も深い機能のクラス内での多様性の低下である。
この制限に悩まされないカーネルベースの分析を提供する。
NTKは、原型データモデルに対するNNGPよりも崩壊した特徴を表現していないことを示す。
論文 参考訳(メタデータ) (2024-06-04T08:33:56Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。