Fugu-MT 論文翻訳(概要): Agent Attention: On the Integration of Softmax and Linear Attention

論文の概要: Agent Attention: On the Integration of Softmax and Linear Attention

arxiv url: http://arxiv.org/abs/2312.08874v2
Date: Fri, 22 Dec 2023 10:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 20:58:14.475959
Title: Agent Attention: On the Integration of Softmax and Linear Attention
Title（参考訳）: エージェント注意:ソフトマックスと線形注意の統合について
Authors: Dongchen Han, Tianzhu Ye, Yizeng Han, Zhuofan Xia, Shiji Song, Gao Huang
Abstract要約: 本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。提案するエージェントアテンションは,線形アテンションの一般化形式と等価であることを示す。特に、エージェントの注意は高解像度のシナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。
参考スコア（独自算出の注目度）: 72.25198723344258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The attention module is the key component in Transformers. While the global attention mechanism offers high expressiveness, its excessive computational cost restricts its applicability in various scenarios. In this paper, we propose a novel attention paradigm, Agent Attention, to strike a favorable balance between computational efficiency and representation power. Specifically, the Agent Attention, denoted as a quadruple $(Q, A, K, V)$, introduces an additional set of agent tokens $A$ into the conventional attention module. The agent tokens first act as the agent for the query tokens $Q$ to aggregate information from $K$ and $V$, and then broadcast the information back to $Q$. Given the number of agent tokens can be designed to be much smaller than the number of query tokens, the agent attention is significantly more efficient than the widely adopted Softmax attention, while preserving global context modelling capability. Interestingly, we show that the proposed agent attention is equivalent to a generalized form of linear attention. Therefore, agent attention seamlessly integrates the powerful Softmax attention and the highly efficient linear attention. Extensive experiments demonstrate the effectiveness of agent attention with various vision Transformers and across diverse vision tasks, including image classification, object detection, semantic segmentation and image generation. Notably, agent attention has shown remarkable performance in high-resolution scenarios, owning to its linear attention nature. For instance, when applied to Stable Diffusion, our agent attention accelerates generation and substantially enhances image generation quality without any additional training. Code is available at https://github.com/LeapLabTHU/Agent-Attention.
Abstract（参考訳）: attentionモジュールはTransformersの重要なコンポーネントである。グローバルアテンションメカニズムは高い表現性を提供するが、その過剰な計算コストは様々なシナリオで適用性を制限する。本稿では,計算効率と表現力のバランスをとるために,新しい注意パラダイムであるエージェント注意(Agent Attention)を提案する。具体的には、エージェントアテンションは4倍の$(Q, A, K, V)$と表現され、従来のアテンションモジュールに追加のエージェントトークンセット$A$を導入する。エージェントトークンは最初、クエリトークンのエージェントとして機能し、$k$と$v$から情報を集約し、その後、情報を$q$にブロードキャストする。エージェントトークンの数をクエリトークンの数よりもはるかに小さく設計できるため、グローバルコンテキストモデリング能力を維持しつつ、広く採用されているsoftmaxの注意よりもエージェントの注意ははるかに効率的である。興味深いことに,提案するエージェントアテンションは線形アテンションの一般化形式と等価である。したがって,エージェント・アテンションはソフトマックス・アテンションと高効率線形アテンションをシームレスに統合する。広範な実験により、様々な視覚トランスフォーマーや、画像分類、物体検出、意味セグメンテーション、画像生成など、様々な視覚タスクにおけるエージェントの注意の有効性が実証された。特に、エージェントの注意は高解像度シナリオにおいて顕著な性能を示しており、その線形の注意の性質に依拠している。例えば、安定拡散に適用した場合、エージェントアテンションは生成を加速し、追加のトレーニングなしで画像生成品質を大幅に向上させる。コードはhttps://github.com/LeapLabTHU/Agent-Attentionで入手できる。

関連論文リスト

Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning [2.713322720372114]
説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を正確に表現するために,正確な注意マスクを生成するための解釈可能な特徴外的アーキテクチャを提案する。得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
論文参考訳（メタデータ） (2025-04-14T10:18:34Z)
Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。 CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文参考訳（メタデータ） (2024-06-19T18:38:11Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。 DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文参考訳（メタデータ） (2023-09-04T08:26:47Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention [12.588866091856309]
本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。グラフ認識(GAMFQ)に基づく部分観測可能な平均場多エージェント強化学習法を提案する。実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-04-25T08:38:32Z)
Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文参考訳（メタデータ） (2022-11-21T03:48:13Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Graph Convolutional Value Decomposition in Multi-Agent Reinforcement Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文参考訳（メタデータ） (2020-10-09T18:01:01Z)
Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文参考訳（メタデータ） (2020-09-30T13:18:57Z)
Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文参考訳（メタデータ） (2020-07-09T15:04:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。