論文の概要: Revisiting Kernel Attention with Correlated Gaussian Process Representation
- arxiv url: http://arxiv.org/abs/2502.20525v1
- Date: Thu, 27 Feb 2025 21:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:32.222468
- Title: Revisiting Kernel Attention with Correlated Gaussian Process Representation
- Title(参考訳): 関連ガウス過程表現によるカーネル注意の再考
- Authors: Long Minh Bui, Tho Tran Huu, Duy Dinh, Tan Minh Nguyen, Trong Nghia Hoang,
- Abstract要約: 自己注意ユニットを2つの相関GP(CGP)間の相互共分散としてモデル化した新しい変圧器のクラスを提案する。
これにより、非対称性が注目され、GPベースの変換器の表現能力を高めることができる。
実験により, CGPベースのトランスとスパースCGPベースのトランスの両方が, 最先端のGPベースのトランスよりも優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 6.857174439487293
- License:
- Abstract: Transformers have increasingly become the de facto method to model sequential data with state-of-the-art performance. Due to its widespread use, being able to estimate and calibrate its modeling uncertainty is important to understand and design robust transformer models. To achieve this, previous works have used Gaussian processes (GPs) to perform uncertainty calibration for the attention units of transformers and attained notable successes. However, such approaches have to confine the transformers to the space of symmetric attention to ensure the necessary symmetric requirement of their GP's kernel specification, which reduces the representation capacity of the model. To mitigate this restriction, we propose the Correlated Gaussian Process Transformer (CGPT), a new class of transformers whose self-attention units are modeled as cross-covariance between two correlated GPs (CGPs). This allows asymmetries in attention and can enhance the representation capacity of GP-based transformers. We also derive a sparse approximation for CGP to make it scale better. Our empirical studies show that both CGP-based and sparse CGP-based transformers achieve better performance than state-of-the-art GP-based transformers on a variety of benchmark tasks. The code for our experiments is available at https://github.com/MinhLong210/CGP-Transformers.
- Abstract(参考訳): トランスフォーマーは、最先端のパフォーマンスでシーケンシャルデータをモデル化するデファクトメソッドになりつつある。
広く使われているため、モデリングの不確かさを見積もり、校正できることは、堅牢なトランスフォーマーモデルを理解し設計することが重要である。
これを実現するために、以前の研究ではガウス過程(GP)を用いて変圧器の注目ユニットの不確実な校正を行い、顕著な成功を収めた。
しかし、そのようなアプローチでは、トランスフォーマーを対称的な注意の空間に閉じ込め、GPのカーネル仕様に必要な対称的な要求を確実にし、モデルの表現能力を減らす必要がある。
この制限を緩和するために,2つの相関GP(CGP)間の相互共分散として自己アテンション単位をモデル化した新しいタイプの変換器であるCorrelated Gaussian Process Transformer (CGPT)を提案する。
これにより、非対称性が注目され、GPベースの変換器の表現能力を高めることができる。
また,CGPのスパース近似を導出し,スケール性を向上する。
実験により, CGPベースおよびスパースCGPベーストランスは, 様々なベンチマークタスクにおいて, 最先端のGPベーストランスよりも優れた性能が得られることが示された。
実験のコードはhttps://github.com/MinhLong210/CGP-Transformers.comで公開されている。
関連論文リスト
- Converting Transformers into DGNNs Form [7.441691512676916]
ダイグラフフーリエ変換に基づく合成ユニタリグラフ畳み込みを導入する。
Converterと呼ぶ結果のモデルは、トランスフォーマーをダイレクトグラフニューラルネットワーク形式に効果的に変換する。
我々は、Long-Range Arenaベンチマーク、Long-Range Arena分類、DNAシークエンスに基づく分類でConverterを検証した。
論文 参考訳(メタデータ) (2025-02-01T22:44:46Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Deep Transformed Gaussian Processes [0.0]
変換ガウス過程(英: Transformed Gaussian Processs、TGP)は、可逆変換を用いて、前者のプロセス(典型的にはGP)からサンプルを共分散から変換することによって定義される過程である。
本稿では,プロセスの階層化の傾向に従い,DTGP(Deep Transformed Gaussian Processs)と呼ばれるTGPの一般化を提案する。
実験では、提案したDTGPを複数の回帰データセットで評価し、優れたスケーラビリティと性能を実現した。
論文 参考訳(メタデータ) (2023-10-27T16:09:39Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Calibrating Transformers via Sparse Gaussian Processes [23.218648177475135]
本稿では,マルチヘッドアテンションブロック(MHA)の出力空間に直接ベイズ推論を行い,その不確実性を校正するスパースガウスプロセスアテンション(SGPA)を提案する。
SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。
論文 参考訳(メタデータ) (2023-03-04T16:04:17Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。