論文の概要: Transformer Neural Processes - Kernel Regression
- arxiv url: http://arxiv.org/abs/2411.12502v3
- Date: Tue, 11 Feb 2025 11:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:23.624771
- Title: Transformer Neural Processes - Kernel Regression
- Title(参考訳): Transformer Neural Processs - Kernel Regression
- Authors: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman,
- Abstract要約: 我々は、スケーラブルニューラルネットワーク(NP)であるTransformer Neural Process - Kernel Regression (TNP-KR)を紹介する。
TNP-KRは、単純でパラメータで効率的なトランスフォーマーブロックであるKernel Regression Block (KR-Block)と、Scan attention (SA)、メモリ効率のよいスキャンベースバイアス、Deep kernel attention (DKA)の2つの新しい注意機構を備えている。
これらの拡張により、TNP-KR変異体は100Kで推論を行うことができる。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License:
- Abstract: Neural Processes (NPs) are a rapidly evolving class of models designed to directly model the posterior predictive distribution of stochastic processes. Originally developed as a scalable alternative to Gaussian Processes (GPs), which are limited by $O(n^3)$ runtime complexity, the most accurate modern NPs can often rival GPs but still suffer from an $O(n^2)$ bottleneck due to their attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a scalable NP featuring: (1) a Kernel Regression Block (KRBlock), a simple, extensible, and parameter efficient transformer block with complexity $O(n_c^2 + n_c n_t)$, where $n_c$ and $n_t$ are the number of context and test points, respectively; (2) a kernel-based attention bias; and (3) two novel attention mechanisms: scan attention (SA), a memory-efficient scan-based attention that when paired with a kernel-based bias can make TNP-KR translation invariant, and deep kernel attention (DKA), a Performer-style attention that implicitly incoporates a distance bias and further reduces complexity to $O(n_c)$. These enhancements enable both TNP-KR variants to perform inference with 100K context points on over 1M test points in under a minute on a single 24GB GPU. On benchmarks spanning meta regression, Bayesian optimization, image completion, and epidemiology, TNP-KR with DKA outperforms its Performer counterpart on nearly every benchmark, while TNP-KR with SA achieves state-of-the-art results.
- Abstract(参考訳): ニューラルプロセス(英: Neural Processs, NP)は、確率過程の後方予測分布を直接モデル化するモデルである。
元々はガウス過程 (GPs) のスケーラブルな代替として開発されたが、これは実行時複雑性が$O(n^3)$に制限されているため、最も正確な現代のNPはGPと競合することが多いが、それでもその注意機構のために$O(n^2)$ボトルネックに悩まされている。
トランスフォーマーニューラルプロセス - Kernel Regression (TNP-KR) は,(1) カーネル回帰ブロック (KRBlock), 単純で拡張性があり,パラメータ効率のよいトランスフォーマーブロックである$O(n_c^2 + n_c n_t)$, where $n_c$ と $n_t$ はそれぞれコンテキストとテストポイントの数である。
これらの拡張により、TNP-KRの2つの変種は、単一の24GB GPUで1分未満で100万以上のテストポイントで100Kのコンテキストポイントで推論を行うことができる。
メタ回帰、ベイズ最適化、画像補完、疫学のベンチマークでは、DKAのTNP-KRは、ほぼすべてのベンチマークでPerformerよりも優れており、SAのTNP-KRは最先端の結果が得られる。
関連論文リスト
- Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - FC2T2: The Fast Continuous Convolutional Taylor Transform with
Applications in Vision and Graphics [8.629912408966145]
現代の機械学習の観点から、Taylorシリーズの拡張を再考する。
連続空間における低次元畳み込み作用素の効率的な近似を可能にする高速多重極法(FMM)の変種である高速連続畳み込みテイラー変換(FC2T2)を導入する。
論文 参考訳(メタデータ) (2021-10-29T22:58:42Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Fast Approximate Multi-output Gaussian Processes [6.6174748514131165]
提案手法のトレーニングには、$N×n$固有関数行列と$n×n$逆数しか必要とせず、$n$は選択された固有値の数である。
提案手法は,複数の出力に対して回帰し,任意の順序の回帰器の導関数を推定し,それらの相関関係を学習することができる。
論文 参考訳(メタデータ) (2020-08-22T14:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。