論文の概要: Transformer Neural Processes -- Kernel Regression
- arxiv url: http://arxiv.org/abs/2411.12502v1
- Date: Tue, 19 Nov 2024 13:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:32.893321
- Title: Transformer Neural Processes -- Kernel Regression
- Title(参考訳): Transformer Neural Processs -- Kernel Regression
- Authors: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman,
- Abstract要約: 我々はトランスフォーマーニューラルプロセス-カーネル回帰(TNP-KR)を導入する。これはカーネル回帰ブロック(BlockKR)と呼ばれる新しいトランスフォーマーブロックを組み込んだ新しいアーキテクチャである。
メタ回帰、ベイズ最適化、画像補完といったタスクにまたがるベンチマークにおいて、完全な変種は最先端の手法のパフォーマンスと一致し、トレーニングは高速で、テストポイント数で2桁高いスケールをし、高速変種はその性能とほぼ一致し、テストポイントとコンテキストポイントの両方をコンシューマハードウェア上でスケーリングすることを示した。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License:
- Abstract: Stochastic processes model various natural phenomena from disease transmission to stock prices, but simulating and quantifying their uncertainty can be computationally challenging. For example, modeling a Gaussian Process with standard statistical methods incurs an $\mathcal{O}(n^3)$ penalty, and even using state-of-the-art Neural Processes (NPs) incurs an $\mathcal{O}(n^2)$ penalty due to the attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a new architecture that incorporates a novel transformer block we call a Kernel Regression Block (KRBlock), which reduces the computational complexity of attention in transformer-based Neural Processes (TNPs) from $\mathcal{O}((n_C+n_T)^2)$ to $O(n_C^2+n_Cn_T)$ by eliminating masked computations, where $n_C$ is the number of context, and $n_T$ is the number of test points, respectively, and a fast attention variant that further reduces all attention calculations to $\mathcal{O}(n_C)$ in space and time complexity. In benchmarks spanning such tasks as meta-regression, Bayesian optimization, and image completion, we demonstrate that the full variant matches the performance of state-of-the-art methods while training faster and scaling two orders of magnitude higher in number of test points, and the fast variant nearly matches that performance while scaling to millions of both test and context points on consumer hardware.
- Abstract(参考訳): 確率過程は、病気の伝染から株価まで様々な自然現象をモデル化するが、それらの不確実性をシミュレーションし定量化することは、計算的に困難である。
例えば、標準的な統計手法でガウス過程をモデル化すると、$\mathcal{O}(n^3)$ペナルティが生じる。
我々はTransformer Neural Process - Kernel Regression (TNP-KR)を導入した新しいアーキテクチャであるKernel Regression Block (KRBlock)を紹介した。これはトランスフォーマーベースのニューラルプロセス(TNPs)における注意の計算複雑性を$\mathcal{O}((n_C+n_Cn_T)^2)$から$O(n_C^2+n_Cn_T)$に削減する。
メタ回帰、ベイズ最適化、画像補完といったタスクにまたがるベンチマークにおいて、完全な変種は最先端の手法のパフォーマンスと一致し、トレーニングは高速で、テストポイント数で2桁高いスケールをし、高速変種はその性能とほぼ一致し、テストポイントとコンテキストポイントの両方をコンシューマハードウェア上でスケーリングすることを示した。
関連論文リスト
- Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods [0.0]
我々はBrownian Kernel Neural Network (BKerNN) と呼ばれる推定器の効率的な手法を提案する。
BKerNNの予測リスクは、O(min((d/n)1/2, n-1/6)$(対数因子まで)の明示的な高い確率で最小限のリスクに収束することを示す。
論文 参考訳(メタデータ) (2024-07-24T13:46:50Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Transformer Neural Processes: Uncertainty-Aware Meta Learning Via
Sequence Modeling [26.377099481072992]
本稿では,不確実性を考慮したメタ学習のためのトランスフォーマーニューラルプロセス(TNP)を提案する。
我々は自己回帰的可能性に基づく目的を通してTNPを学習し、それを新しいトランスフォーマーベースのアーキテクチャでインスタンス化する。
我々は,TNPが様々なベンチマーク問題に対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-07-09T02:28:58Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Sparse Kernel Gaussian Processes through Iterative Charted Refinement
(ICR) [0.0]
本稿では,ガウス過程をモデル化するためのICR(Iterative Charted Refinement)という新しい生成手法を提案する。
ICRは、様々な解像度でモデル化された場所のビューとユーザが提供する座標チャートを組み合わせることで、長距離および短距離の相関を表現している。
ICRは、CPUとGPUの1桁の計算速度で既存の手法より優れています。
論文 参考訳(メタデータ) (2022-06-21T18:00:01Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。