論文の概要: Transformer Neural Processes -- Kernel Regression
- arxiv url: http://arxiv.org/abs/2411.12502v1
- Date: Tue, 19 Nov 2024 13:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:32.893321
- Title: Transformer Neural Processes -- Kernel Regression
- Title(参考訳): Transformer Neural Processs -- Kernel Regression
- Authors: Daniel Jenson, Jhonathan Navott, Mengyan Zhang, Makkunda Sharma, Elizaveta Semenova, Seth Flaxman,
- Abstract要約: 我々はトランスフォーマーニューラルプロセス-カーネル回帰(TNP-KR)を導入する。これはカーネル回帰ブロック(BlockKR)と呼ばれる新しいトランスフォーマーブロックを組み込んだ新しいアーキテクチャである。
メタ回帰、ベイズ最適化、画像補完といったタスクにまたがるベンチマークにおいて、完全な変種は最先端の手法のパフォーマンスと一致し、トレーニングは高速で、テストポイント数で2桁高いスケールをし、高速変種はその性能とほぼ一致し、テストポイントとコンテキストポイントの両方をコンシューマハードウェア上でスケーリングすることを示した。
- 参考スコア(独自算出の注目度): 2.309018557701645
- License:
- Abstract: Stochastic processes model various natural phenomena from disease transmission to stock prices, but simulating and quantifying their uncertainty can be computationally challenging. For example, modeling a Gaussian Process with standard statistical methods incurs an $\mathcal{O}(n^3)$ penalty, and even using state-of-the-art Neural Processes (NPs) incurs an $\mathcal{O}(n^2)$ penalty due to the attention mechanism. We introduce the Transformer Neural Process - Kernel Regression (TNP-KR), a new architecture that incorporates a novel transformer block we call a Kernel Regression Block (KRBlock), which reduces the computational complexity of attention in transformer-based Neural Processes (TNPs) from $\mathcal{O}((n_C+n_T)^2)$ to $O(n_C^2+n_Cn_T)$ by eliminating masked computations, where $n_C$ is the number of context, and $n_T$ is the number of test points, respectively, and a fast attention variant that further reduces all attention calculations to $\mathcal{O}(n_C)$ in space and time complexity. In benchmarks spanning such tasks as meta-regression, Bayesian optimization, and image completion, we demonstrate that the full variant matches the performance of state-of-the-art methods while training faster and scaling two orders of magnitude higher in number of test points, and the fast variant nearly matches that performance while scaling to millions of both test and context points on consumer hardware.
- Abstract(参考訳): 確率過程は、病気の伝染から株価まで様々な自然現象をモデル化するが、それらの不確実性をシミュレーションし定量化することは、計算的に困難である。
例えば、標準的な統計手法でガウス過程をモデル化すると、$\mathcal{O}(n^3)$ペナルティが生じる。
我々はTransformer Neural Process - Kernel Regression (TNP-KR)を導入した新しいアーキテクチャであるKernel Regression Block (KRBlock)を紹介した。これはトランスフォーマーベースのニューラルプロセス(TNPs)における注意の計算複雑性を$\mathcal{O}((n_C+n_Cn_T)^2)$から$O(n_C^2+n_Cn_T)$に削減する。
メタ回帰、ベイズ最適化、画像補完といったタスクにまたがるベンチマークにおいて、完全な変種は最先端の手法のパフォーマンスと一致し、トレーニングは高速で、テストポイント数で2桁高いスケールをし、高速変種はその性能とほぼ一致し、テストポイントとコンテキストポイントの両方をコンシューマハードウェア上でスケーリングすることを示した。
関連論文リスト
- Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Gauss-Newton Temporal Difference Learning with Nonlinear Function Approximation [11.925232472331494]
非線形関数近似を用いたQラーニング問題を解くため,ガウスニュートン時間差分法(GNTD)学習法を提案する。
各イテレーションにおいて、我々の手法は1つのガウスニュートン(GN)ステップを踏んで平均二乗ベルマン誤差(MSBE)の変種を最適化する。
いくつかのRLベンチマークにおいて、GNTDはTD型よりも高い報酬と高速な収束を示す。
論文 参考訳(メタデータ) (2023-02-25T14:14:01Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - FC2T2: The Fast Continuous Convolutional Taylor Transform with
Applications in Vision and Graphics [8.629912408966145]
現代の機械学習の観点から、Taylorシリーズの拡張を再考する。
連続空間における低次元畳み込み作用素の効率的な近似を可能にする高速多重極法(FMM)の変種である高速連続畳み込みテイラー変換(FC2T2)を導入する。
論文 参考訳(メタデータ) (2021-10-29T22:58:42Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - Fast Approximate Multi-output Gaussian Processes [6.6174748514131165]
提案手法のトレーニングには、$N×n$固有関数行列と$n×n$逆数しか必要とせず、$n$は選択された固有値の数である。
提案手法は,複数の出力に対して回帰し,任意の順序の回帰器の導関数を推定し,それらの相関関係を学習することができる。
論文 参考訳(メタデータ) (2020-08-22T14:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。