論文の概要: Agent Attention: On the Integration of Softmax and Linear Attention
- arxiv url: http://arxiv.org/abs/2312.08874v2
- Date: Fri, 22 Dec 2023 10:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:58:14.475959
- Title: Agent Attention: On the Integration of Softmax and Linear Attention
- Title(参考訳): エージェント注意:ソフトマックスと線形注意の統合について
- Authors: Dongchen Han, Tianzhu Ye, Yizeng Han, Zhuofan Xia, Shiji Song, Gao
Huang
- Abstract要約: 本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
提案するエージェントアテンションは,線形アテンションの一般化形式と等価であることを示す。
特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
- 参考スコア(独自算出の注目度): 72.25198723344258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The attention module is the key component in Transformers. While the global
attention mechanism offers high expressiveness, its excessive computational
cost restricts its applicability in various scenarios. In this paper, we
propose a novel attention paradigm, Agent Attention, to strike a favorable
balance between computational efficiency and representation power.
Specifically, the Agent Attention, denoted as a quadruple $(Q, A, K, V)$,
introduces an additional set of agent tokens $A$ into the conventional
attention module. The agent tokens first act as the agent for the query tokens
$Q$ to aggregate information from $K$ and $V$, and then broadcast the
information back to $Q$. Given the number of agent tokens can be designed to be
much smaller than the number of query tokens, the agent attention is
significantly more efficient than the widely adopted Softmax attention, while
preserving global context modelling capability. Interestingly, we show that the
proposed agent attention is equivalent to a generalized form of linear
attention. Therefore, agent attention seamlessly integrates the powerful
Softmax attention and the highly efficient linear attention. Extensive
experiments demonstrate the effectiveness of agent attention with various
vision Transformers and across diverse vision tasks, including image
classification, object detection, semantic segmentation and image generation.
Notably, agent attention has shown remarkable performance in high-resolution
scenarios, owning to its linear attention nature. For instance, when applied to
Stable Diffusion, our agent attention accelerates generation and substantially
enhances image generation quality without any additional training. Code is
available at https://github.com/LeapLabTHU/Agent-Attention.
- Abstract(参考訳): attentionモジュールはTransformersの重要なコンポーネントである。
グローバルアテンションメカニズムは高い表現性を提供するが、その過剰な計算コストは様々なシナリオで適用性を制限する。
本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。
具体的には、エージェントアテンションは4倍の$(Q, A, K, V)$と表現され、従来のアテンションモジュールに追加のエージェントトークンセット$A$を導入する。
エージェントトークンは最初、クエリトークンのエージェントとして機能し、$k$と$v$から情報を集約し、その後、情報を$q$にブロードキャストする。
エージェントトークンの数をクエリトークンの数よりもはるかに小さく設計できるため、グローバルコンテキストモデリング能力を維持しつつ、広く採用されているsoftmaxの注意よりもエージェントの注意ははるかに効率的である。
興味深いことに,提案するエージェントアテンションは線形アテンションの一般化形式と等価である。
したがって,エージェント・アテンションはソフトマックス・アテンションと高効率線形アテンションをシームレスに統合する。
広範な実験により、様々な視覚トランスフォーマーや、画像分類、物体検出、意味セグメンテーション、画像生成など、様々な視覚タスクにおけるエージェントの注意の有効性が実証された。
特に、エージェントの注意は高解像度シナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
例えば、安定拡散に適用した場合、エージェントアテンションは生成を加速し、追加のトレーニングなしで画像生成品質を大幅に向上させる。
コードはhttps://github.com/LeapLabTHU/Agent-Attentionで入手できる。
関連論文リスト
- Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention [12.588866091856309]
本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。
グラフ認識(GAMFQ)に基づく部分観測可能な平均場多エージェント強化学習法を提案する。
実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-04-25T08:38:32Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。