論文の概要: Transformer Neural Processes -- Kernel Regression
- arxiv url: http://arxiv.org/abs/2411.12502v1
- Date: Tue, 19 Nov 2024 13:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:49.113951
- Title: Transformer Neural Processes -- Kernel Regression
- Title(参考訳): Transformer Neural Processs -- Kernel Regression
- Authors: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman,
- Abstract要約: 我々はトランスフォーマーニューラルプロセス-カーネル回帰(TNP-KR)を導入する。これはカーネル回帰ブロック(BlockKR)と呼ばれる新しいトランスフォーマーブロックを組み込んだ新しいアーキテクチャである。
メタ回帰、ベイズ最適化、画像補完といったタスクにまたがるベンチマークにおいて、完全な変種は最先端の手法のパフォーマンスと一致し、トレーニングは高速で、テストポイント数で2桁高いスケールをし、高速変種はその性能とほぼ一致し、テストポイントとコンテキストポイントの両方をコンシューマハードウェア上でスケーリングすることを示した。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Stochastic processes model various natural phenomena from disease transmission to stock prices, but simulating and quantifying their uncertainty can be computationally challenging. For example, modeling a Gaussian Process with standard statistical methods incurs an $\mathcal{O}(n^3)$ penalty, and even using state-of-the-art Neural Processes (NPs) incurs an $\mathcal{O}(n^2)$ penalty due to the attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a new architecture that incorporates a novel transformer block we call a Kernel Regression Block (KRBlock), which reduces the computational complexity of attention in transformer-based Neural Processes (TNPs) from $\mathcal{O}((n_C+n_T)^2)$ to $O(n_C^2+n_Cn_T)$ by eliminating masked computations, where $n_C$ is the number of context, and $n_T$ is the number of test points, respectively, and a fast attention variant that further reduces all attention calculations to $\mathcal{O}(n_C)$ in space and time complexity. In benchmarks spanning such tasks as meta-regression, Bayesian optimization, and image completion, we demonstrate that the full variant matches the performance of state-of-the-art methods while training faster and scaling two orders of magnitude higher in number of test points, and the fast variant nearly matches that performance while scaling to millions of both test and context points on consumer hardware.
- Abstract(参考訳): 確率過程は、病気の伝染から株価まで様々な自然現象をモデル化するが、それらの不確実性をシミュレーションし定量化することは、計算的に困難である。
例えば、標準的な統計手法でガウス過程をモデル化すると、$\mathcal{O}(n^3)$ペナルティが生じる。
我々はTransformer Neural Process - Kernel Regression (TNP-KR)を導入した新しいアーキテクチャであるKernel Regression Block (KRBlock)を紹介した。これはトランスフォーマーベースのニューラルプロセス(TNPs)における注意の計算複雑性を$\mathcal{O}((n_C+n_Cn_T)^2)$から$O(n_C^2+n_Cn_T)$に削減する。
メタ回帰、ベイズ最適化、画像補完といったタスクにまたがるベンチマークにおいて、完全な変種は最先端の手法のパフォーマンスと一致し、トレーニングは高速で、テストポイント数で2桁高いスケールをし、高速変種はその性能とほぼ一致し、テストポイントとコンテキストポイントの両方をコンシューマハードウェア上でスケーリングすることを示した。
関連論文リスト
- Exploring Pseudo-Token Approaches in Transformer Neural Processes [0.0]
ISANP(Set Attentive Neural Processs)について紹介する。
ISANPはTransformer Neural Processs (TNP) と競合し、1次元回帰、画像補完、文脈帯域幅、ベイズ最適化において最先端のモデルを上回る。
ISANPは、より大きなデータセットによくスケールする、パフォーマンスと計算の複雑さの調整可能なバランスを提供する。
論文 参考訳(メタデータ) (2025-04-19T22:47:59Z) - Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Transformer Neural Processes: Uncertainty-Aware Meta Learning Via
Sequence Modeling [26.377099481072992]
本稿では,不確実性を考慮したメタ学習のためのトランスフォーマーニューラルプロセス(TNP)を提案する。
我々は自己回帰的可能性に基づく目的を通してTNPを学習し、それを新しいトランスフォーマーベースのアーキテクチャでインスタンス化する。
我々は,TNPが様々なベンチマーク問題に対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-07-09T02:28:58Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Sparse Kernel Gaussian Processes through Iterative Charted Refinement
(ICR) [0.0]
本稿では,ガウス過程をモデル化するためのICR(Iterative Charted Refinement)という新しい生成手法を提案する。
ICRは、様々な解像度でモデル化された場所のビューとユーザが提供する座標チャートを組み合わせることで、長距離および短距離の相関を表現している。
ICRは、CPUとGPUの1桁の計算速度で既存の手法より優れています。
論文 参考訳(メタデータ) (2022-06-21T18:00:01Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - FC2T2: The Fast Continuous Convolutional Taylor Transform with
Applications in Vision and Graphics [8.629912408966145]
現代の機械学習の観点から、Taylorシリーズの拡張を再考する。
連続空間における低次元畳み込み作用素の効率的な近似を可能にする高速多重極法(FMM)の変種である高速連続畳み込みテイラー変換(FC2T2)を導入する。
論文 参考訳(メタデータ) (2021-10-29T22:58:42Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Fast Approximate Multi-output Gaussian Processes [6.6174748514131165]
提案手法のトレーニングには、$N×n$固有関数行列と$n×n$逆数しか必要とせず、$n$は選択された固有値の数である。
提案手法は,複数の出力に対して回帰し,任意の順序の回帰器の導関数を推定し,それらの相関関係を学習することができる。
論文 参考訳(メタデータ) (2020-08-22T14:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。