論文の概要: Interactive Multi-Head Self-Attention with Linear Complexity
- arxiv url: http://arxiv.org/abs/2402.17507v1
- Date: Tue, 27 Feb 2024 13:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:17:09.147852
- Title: Interactive Multi-Head Self-Attention with Linear Complexity
- Title(参考訳): 線形複雑度を有する対話型多頭部セルフアテンション
- Authors: Hankyul Kang, Ming-Hsuan Yang, Jongbin Ryu
- Abstract要約: 本研究では,アテンション行列のクロスヘッド間相互作用により,アテンション操作の情報フローが向上することを示す。
本稿では,アテンション操作をクエリとキーレスコンポーネントに分解する効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 60.112941134420204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an efficient interactive method for multi-head self-attention via
decomposition. For existing methods using multi-head self-attention, the
attention operation of each head is computed independently. However, we show
that the interactions between cross-heads of the attention matrix enhance the
information flow of the attention operation. Considering that the attention
matrix of each head can be seen as a feature of networks, it is beneficial to
establish connectivity between them to capture interactions better. However, a
straightforward approach to capture the interactions between the cross-heads is
computationally prohibitive as the complexity grows substantially with the high
dimension of an attention matrix. In this work, we propose an effective method
to decompose the attention operation into query- and key-less components. This
will result in a more manageable size for the attention matrix, specifically
for the cross-head interactions. Expensive experimental results show that the
proposed cross-head interaction approach performs favorably against existing
efficient attention methods and state-of-the-art backbone models.
- Abstract(参考訳): 本稿では,マルチヘッド・セルフアテンションの分解による効率的な対話的手法を提案する。
マルチヘッドセルフアテンションを用いた既存の手法では、各ヘッドの注意操作を独立に計算する。
しかし,アテンションマトリックスのクロスヘッド間の相互作用はアテンション操作の情報フローを増加させることを示した。
それぞれの頭部の注意行列をネットワークの特徴と見なすことができれば,対話をよりよく捉えるために,それらの間の接続を確立することは有益である。
しかし、複雑度が注目行列の高次元とともに大きくなるにつれて、クロスヘッド間の相互作用を捉える直接的なアプローチは計算的に禁止される。
本研究では,アテンション操作をクエリとキーレスのコンポーネントに分割する効果的な手法を提案する。
これにより、注意行列、特に対頭相互作用に対してより管理可能なサイズが得られる。
実験結果から,提案手法は既存の効率的な注目手法や最先端のバックボーンモデルに対して良好に作用することが示された。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Context-Aware Interaction Network for Question Matching [51.76812857301819]
本研究では,二つのシーケンスを整合させ,それらの意味関係を推定する文脈認識インタラクションネットワーク(coin)を提案する。
具体的には,(1)コンテキスト情報を効果的に統合するためのコンテキスト対応のクロスアテンション機構,(2)整列表現を柔軟に補間するゲート融合層を備える。
論文 参考訳(メタデータ) (2021-04-17T05:03:56Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。