論文の概要: Transformer Neural Processes - Kernel Regression
- arxiv url: http://arxiv.org/abs/2411.12502v2
- Date: Sun, 09 Feb 2025 17:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:28:32.779168
- Title: Transformer Neural Processes - Kernel Regression
- Title(参考訳): Transformer Neural Processs - Kernel Regression
- Authors: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman,
- Abstract要約: 我々は、スケーラブルニューラルネットワーク(NP)であるTransformer Neural Process - Kernel Regression (TNP-KR)を紹介する。
TNP-KRはKernel Regression Block (KRBlock) を特徴としている。
メタ回帰、ベイズ最適化、画像補完、疫学のベンチマークでは、DKAのTNP-KRは、ほぼすべてのベンチマークでPerformerよりも優れています。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License:
- Abstract: Neural Processes (NPs) are a rapidly evolving class of models designed to directly model the posterior predictive distribution of stochastic processes. Originally developed as a scalable alternative to Gaussian Processes (GPs), which are limited by $\mathcal{O}(n^3)$ runtime complexity, the most accurate modern NPs can often rival GPs but still suffer from an $\mathcal{O}(n^2)$ bottleneck due to their attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a scalable NP featuring: (1) a Kernel Regression Block (KRBlock), a simple, extensible, and parameter efficient transformer block with complexity $\mathcal{O}(n_c^2 + n_c n_t)$, where $n_c$ and $n_t$ are the number of context and test points, respectively; (2) a kernel-based attention bias; and (3) two novel attention mechanisms: scan attention (SA), a memory-efficient scan-based attention that when paired with a kernel-based bias can make TNP-KR translation invariant, and deep kernel attention (DKA), a Performer-style attention that implicitly incoporates a distance bias and further reduces complexity to $\mathcal{O}(n_c)$. These enhancements enable both TNP-KR variants to perform inference with 100K context points on over 1M test points in under a minute on a single 24GB GPU. On benchmarks spanning meta regression, Bayesian optimization, image completion, and epidemiology, TNP-KR with DKA outperforms its Performer counterpart on nearly every benchmark, while TNP-KR with SA achieves state-of-the-art results.
- Abstract(参考訳): ニューラルプロセス(英: Neural Processs, NP)は、確率過程の後方予測分布を直接モデル化するモデルである。
元々はガウス過程 (GPs) のスケーラブルな代替として開発されたが、これは実行時複雑性が$\mathcal{O}(n^3)$で制限されているため、最も正確な現代のNPはGPと競合することがあるが、それでも注意機構のために$\mathcal{O}(n^2)$ボトルネックに悩まされている。
トランスフォーマーニューラルプロセス - Kernel Regression (TNP-KR) はスケーラブルNPである: 1) カーネル回帰ブロック(KRBlock) 単純で拡張性があり、パラメータ効率のよいトランスフォーマーブロック(KRBlock) 複雑さを持つ$\mathcal{O}(n_c^2 + n_c n_t)$, where $n_c$ と $n_t$ はそれぞれコンテキストとテストポイントの数である。
これらの拡張により、TNP-KRの2つの変種は、単一の24GB GPUで1分未満で100万以上のテストポイントで100Kのコンテキストポイントで推論を行うことができる。
メタ回帰、ベイズ最適化、画像補完、疫学のベンチマークでは、DKAのTNP-KRは、ほぼすべてのベンチマークでPerformerよりも優れており、SAのTNP-KRは最先端の結果が得られる。
関連論文リスト
- Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods [0.0]
我々はBrownian Kernel Neural Network (BKerNN) と呼ばれる推定器の効率的な手法を提案する。
BKerNNの予測リスクは、O(min((d/n)1/2, n-1/6)$(対数因子まで)の明示的な高い確率で最小限のリスクに収束することを示す。
論文 参考訳(メタデータ) (2024-07-24T13:46:50Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Transformer Neural Processes: Uncertainty-Aware Meta Learning Via
Sequence Modeling [26.377099481072992]
本稿では,不確実性を考慮したメタ学習のためのトランスフォーマーニューラルプロセス(TNP)を提案する。
我々は自己回帰的可能性に基づく目的を通してTNPを学習し、それを新しいトランスフォーマーベースのアーキテクチャでインスタンス化する。
我々は,TNPが様々なベンチマーク問題に対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-07-09T02:28:58Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Sparse Kernel Gaussian Processes through Iterative Charted Refinement
(ICR) [0.0]
本稿では,ガウス過程をモデル化するためのICR(Iterative Charted Refinement)という新しい生成手法を提案する。
ICRは、様々な解像度でモデル化された場所のビューとユーザが提供する座標チャートを組み合わせることで、長距離および短距離の相関を表現している。
ICRは、CPUとGPUの1桁の計算速度で既存の手法より優れています。
論文 参考訳(メタデータ) (2022-06-21T18:00:01Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。