論文の概要: Self-Attention through Kernel-Eigen Pair Sparse Variational Gaussian Processes
- arxiv url: http://arxiv.org/abs/2402.01476v2
- Date: Tue, 28 May 2024 09:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:38:05.950869
- Title: Self-Attention through Kernel-Eigen Pair Sparse Variational Gaussian Processes
- Title(参考訳): カーネル・固有ペアスパース変分ガウス過程による自己注意
- Authors: Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A. K. Suykens,
- Abstract要約: 我々は不確実性を考慮した自己注意構築のためのKEP-SVGP(Kernel-Eigen Pair Sparse Variational Gaussian Process)を提案する。
In-distriion, distribution-shift, out-of-distriionベンチマークにおける優れた性能と効率を検証した。
- 参考スコア(独自算出の注目度): 20.023544206079304
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While the great capability of Transformers significantly boosts prediction accuracy, it could also yield overconfident predictions and require calibrated uncertainty estimation, which can be commonly tackled by Gaussian processes (GPs). Existing works apply GPs with symmetric kernels under variational inference to the attention kernel; however, omitting the fact that attention kernels are in essence asymmetric. Moreover, the complexity of deriving the GP posteriors remains high for large-scale data. In this work, we propose Kernel-Eigen Pair Sparse Variational Gaussian Processes (KEP-SVGP) for building uncertainty-aware self-attention where the asymmetry of attention kernels is tackled by Kernel SVD (KSVD) and a reduced complexity is acquired. Through KEP-SVGP, i) the SVGP pair induced by the two sets of singular vectors from KSVD w.r.t. the attention kernel fully characterizes the asymmetry; ii) using only a small set of adjoint eigenfunctions from KSVD, the derivation of SVGP posteriors can be based on the inversion of a diagonal matrix containing singular values, contributing to a reduction in time complexity; iii) an evidence lower bound is derived so that variational parameters and network weights can be optimized with it. Experiments verify our excellent performances and efficiency on in-distribution, distribution-shift and out-of-distribution benchmarks.
- Abstract(参考訳): トランスフォーマーの優れた能力は予測精度を大幅に向上させるが、過度に信頼された予測を導き、ガウス過程(GP)に対処できる校正された不確実性推定を必要とする可能性がある。
既存の研究は、アテンションカーネルに対する変分推論の下で対称核を持つGPを適用するが、アテンションカーネルが本質的に非対称であるという事実を省略する。
さらに、GP後部を導出する複雑さは、大規模データにとって依然として高い。
本稿では,Kernel SVD(KSVD)により注目カーネルの非対称性が取り組まれる不確実性を考慮した自己アテンションを構築するためのKEP-SVGP(Kernel-Eigen Pair Sparse Variational Gaussian Processs)を提案する。
略称KEP-SVGP。
i) KSVD w.r.t.の2つの特異ベクトルの集合によって誘導されるSVGP対。注目核は非対称性を完全に特徴づける。
二 SVGP後縁の導出は、KSVDからの一組の随伴固有関数のみを用いて、特異値を含む対角行列の逆転に基づいて、時間的複雑さの低減に寄与することができる。
三 変動パラメータ及びネットワーク重み付けを最適化できるように、下限の証拠を導出すること。
In-distriion, distribution-shift, out-of-distriionベンチマークにおける優れた性能と効率を検証した。
関連論文リスト
- Learning in Feature Spaces via Coupled Covariances: Asymmetric Kernel SVD and Nyström method [21.16129116282759]
共分散固有確率(CCE)に基づく新しい非対称学習パラダイムを導入する。
有限サンプル近似を用いて非対称Nystr"om法を定式化し,トレーニングを高速化する。
論文 参考訳(メタデータ) (2024-06-13T02:12:18Z) - Variance-Reducing Couplings for Random Features: Perspectives from Optimal Transport [57.73648780299374]
ランダム機能(RF)は、機械学習におけるカーネルメソッドをスケールアップするための一般的なテクニックであり、正確なカーネル評価をモンテカルロ推定に置き換える。
我々は、理論的洞察と数値アルゴリズムを用いて最適な輸送の統一的な枠組みを用いて、ユークリッドおよび離散入力空間上で定義されたカーネルに対して、新しい高性能なRF結合を開発する。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Neural Tangent Kernels Motivate Graph Neural Networks with
Cross-Covariance Graphs [94.44374472696272]
グラフニューラルネットワーク(GNN)の文脈におけるNTKとアライメントについて検討する。
その結果、2層GNNのアライメントの最適性に関する理論的保証が確立された。
これらの保証は、入力と出力データの相互共分散の関数であるグラフシフト演算子によって特徴づけられる。
論文 参考訳(メタデータ) (2023-10-16T19:54:21Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Primal-Attention: Self-attention through Asymmetric Kernel SVD in Primal
Representation [21.87428356353377]
非対称カーネル特異値分解(KSVD)による自己注意の表現と最適化のための新しい視点を提供する。
KSVDの最適化は、正規化損失を最小限に抑え、余分な分解を伴わずに低ランク特性を促進できることを示す。
これは、自己アテンションにおける非対称核の原始双対表現を提供し、モデリングと最適化にうまく適用した最初の作品である。
論文 参考訳(メタデータ) (2023-05-31T12:38:24Z) - Towards Understanding the Dynamics of Gaussian-Stein Variational
Gradient Descent [16.16051064618816]
Stein Variational Gradient Descent (SVGD) は、非パラメトリック粒子に基づく決定論的サンプリングアルゴリズムである。
双線型カーネルを介してガウス分布の族に投影されるガウス-SVGDのダイナミクスについて検討する。
本稿では密度ベースおよび粒子ベースによるGaussian-SVGDの実装を提案し、GVIの最近のアルゴリズムは、異なる視点から提案され、我々の統合フレームワークの特別なケースとして現れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T13:55:47Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - High-Dimensional Gaussian Process Inference with Derivatives [90.8033626920884]
低データ状態の$ND$では、Gram行列は$mathcalO(N2D + (N2)3)$に推論のコストを下げる方法で分解できることを示す。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
論文 参考訳(メタデータ) (2021-02-15T13:24:41Z) - tvGP-VAE: Tensor-variate Gaussian Process Prior Variational Autoencoder [0.0]
tvGP-VAEはカーネル関数を使用して相関を明示的にモデル化することができる。
そこで本研究では,どの相関構造を潜在空間で明示的に表現するかの選択が,モデル性能に大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2020-06-08T17:59:13Z) - Randomly Projected Additive Gaussian Processes for Regression [37.367935314532154]
GPレグレッションにはカーネルの加算和を使用し、各カーネルはその入力の異なるランダムなプロジェクションで動作する。
この収束とその速度を証明し、純粋にランダムな射影よりも早く収束する決定論的アプローチを提案する。
論文 参考訳(メタデータ) (2019-12-30T07:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。