論文の概要: Efficient kernel surrogates for neural network-based regression
- arxiv url: http://arxiv.org/abs/2310.18612v2
- Date: Wed, 24 Jan 2024 11:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:06:54.375235
- Title: Efficient kernel surrogates for neural network-based regression
- Title(参考訳): ニューラルネットワークに基づく回帰のための効率的なカーネルサロゲート
- Authors: Saad Qadeer, Andrew Engel, Amanda Howard, Adam Tsou, Max Vargas, Panos
Stinis, and Tony Chiang
- Abstract要約: ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
- 参考スコア(独自算出の注目度): 0.8030359871216615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their immense promise in performing a variety of learning tasks, a
theoretical understanding of the limitations of Deep Neural Networks (DNNs) has
so far eluded practitioners. This is partly due to the inability to determine
the closed forms of the learned functions, making it harder to study their
generalization properties on unseen datasets. Recent work has shown that
randomly initialized DNNs in the infinite width limit converge to kernel
machines relying on a Neural Tangent Kernel (NTK) with known closed form. These
results suggest, and experimental evidence corroborates, that empirical kernel
machines can also act as surrogates for finite width DNNs. The high
computational cost of assembling the full NTK, however, makes this approach
infeasible in practice, motivating the need for low-cost approximations. In the
current work, we study the performance of the Conjugate Kernel (CK), an
efficient approximation to the NTK that has been observed to yield fairly
similar results. For the regression problem of smooth functions and logistic
regression classification, we show that the CK performance is only marginally
worse than that of the NTK and, in certain cases, is shown to be superior. In
particular, we establish bounds for the relative test losses, verify them with
numerical tests, and identify the regularity of the kernel as the key
determinant of performance. In addition to providing a theoretical grounding
for using CKs instead of NTKs, our framework suggests a recipe for improving
DNN accuracy inexpensively. We present a demonstration of this on the
foundation model GPT-2 by comparing its performance on a classification task
using a conventional approach and our prescription. We also show how our
approach can be used to improve physics-informed operator network training for
regression tasks as well as convolutional neural network training for vision
classification tasks.
- Abstract(参考訳): さまざまな学習タスクを実行するという大きな約束にもかかわらず、Deep Neural Networks(DNN)の限界に関する理論的理解は、これまでのところ、実践者を追い抜いている。
これは部分的には、学習された関数の閉形式を決定することができないため、見えないデータセットの一般化特性の研究が困難である。
近年の研究では、無限幅制限のランダム初期化DNNが、既知の閉形式を持つニューラルタンジェントカーネル(NTK)に依存するカーネルマシンに収束していることが示されている。
これらの結果は、経験的カーネルマシンが有限幅DNNのサロゲートとしても機能することを示す。
しかし、完全なntkを組み立てる計算コストが高いため、このアプローチは実現不可能となり、低コストな近似の必要性が高まった。
本研究は, NTK に対する効率的な近似である Conjugate Kernel (CK) の性能について検討し, ほぼ同様の結果を得た。
滑らかな関数の回帰問題やロジスティック回帰分類では、CK性能がNTKよりもわずかに劣っていることが示され、ある場合にはより優れていることが示されている。
特に、相対的なテスト損失のバウンダリを確立し、数値的なテストで検証し、カーネルの正則性を性能の重要な決定要因として特定する。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
本稿では,従来の手法と処方則を用いて分類タスクの性能を比較することで,基礎モデルGPT-2にこれを実証する。
また,本手法を応用して,回帰タスクに対する物理情報操作ネットワークトレーニングや,視覚分類タスクのための畳み込みニューラルネットワークトレーニングを改善する方法を示す。
関連論文リスト
- Kernel vs. Kernel: Exploring How the Data Structure Affects Neural Collapse [9.975341265604577]
ニューラル・コラプス(Neural Collapse)とは、NC1と呼ばれるネットワークの最も深い機能のクラス内での多様性の低下である。
この制限に悩まされないカーネルベースの分析を提供する。
NTKは、原型データモデルに対するNNGPよりも崩壊した特徴を表現していないことを示す。
論文 参考訳(メタデータ) (2024-06-04T08:33:56Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。