論文の概要: Couplformer:Rethinking Vision Transformer with Coupling Attention Map
- arxiv url: http://arxiv.org/abs/2112.05425v1
- Date: Fri, 10 Dec 2021 10:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:48:22.666164
- Title: Couplformer:Rethinking Vision Transformer with Coupling Attention Map
- Title(参考訳): Couplformer:Coupling Attention Mapによる視覚変換器の再考
- Authors: Hai Lan, Xihao Wang, Xian Wei
- Abstract要約: Transformerモデルはコンピュータビジョン領域において優れた性能を示した。
本稿では,2つのサブ行列にアテンションマップを分割する,Couplformerという新しいメモリエコノミーアテンション機構を提案する。
実験の結果、Couplformerは通常のTransformerに比べて28%のメモリ消費を著しく削減できることがわかった。
- 参考スコア(独自算出の注目度): 7.789667260916264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the development of the self-attention mechanism, the Transformer model
has demonstrated its outstanding performance in the computer vision domain.
However, the massive computation brought from the full attention mechanism
became a heavy burden for memory consumption. Sequentially, the limitation of
memory reduces the possibility of improving the Transformer model. To remedy
this problem, we propose a novel memory economy attention mechanism named
Couplformer, which decouples the attention map into two sub-matrices and
generates the alignment scores from spatial information. A series of different
scale image classification tasks are applied to evaluate the effectiveness of
our model. The result of experiments shows that on the ImageNet-1k
classification task, the Couplformer can significantly decrease 28% memory
consumption compared with regular Transformer while accessing sufficient
accuracy requirements and outperforming 0.92% on Top-1 accuracy while occupying
the same memory footprint. As a result, the Couplformer can serve as an
efficient backbone in visual tasks, and provide a novel perspective on the
attention mechanism for researchers.
- Abstract(参考訳): 自己着脱機構の開発により、トランスフォーマーモデルはコンピュータビジョン領域において優れた性能を示している。
しかし、フルアテンション機構から引き起こされた膨大な計算は、メモリ消費の重荷となった。
順次、メモリの制限はトランスフォーマーモデルを改善する可能性を低下させる。
そこで本研究では,注意マップを2つのサブ行列に分解し,空間情報からアライメントスコアを生成する,新しい記憶経済アライメント機構であるcoolformerを提案する。
本モデルの有効性を評価するために,様々なスケール画像分類タスクを適用した。
実験の結果、imagenet-1k分類タスクにおいて、couplformerは、十分な精度要求にアクセスしながら、通常のトランスフォーマーに比べて28%のメモリ消費を著しく削減でき、同じメモリフットプリントを占有しながらtop-1の精度で0.92%を上回った。
その結果、Couplformerは視覚タスクの効率的なバックボーンとして機能し、研究者にとって新たな注意機構を提供することができる。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Dual Path Transformer with Partition Attention [26.718318398951933]
本稿では,2重注意という,効率的かつ効果的に機能する新しい注意機構を提案する。
我々は,イメージネットのイメージ分類,COCOのオブジェクト検出,都市景観のセマンティックセグメンテーションなど,複数のコンピュータビジョンタスクにおけるモデルの有効性を評価する。
提案されたDualFormer-XSは、ImageNet上で81.5%のTop-1精度を達成し、最近の最先端のT-XSを0.6%上回り、スループットが大幅に向上した。
論文 参考訳(メタデータ) (2023-05-24T06:17:53Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - AttMEMO : Accelerating Transformers with Memoization on Big Memory
Systems [10.585040856070941]
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
推論精度の低下を無視して,平均で22%(最大68%)の推論遅延低減を可能にする。
論文 参考訳(メタデータ) (2023-01-23T04:24:26Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention [7.967230034960396]
各種能動記憶機構がトランスフォーマーの自己注意に取って代わるかどうかを評価する。
実験の結果、アクティブメモリだけで言語モデリングの自己認識機構に匹敵する結果が得られることが示唆された。
特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで、自己注意とこれら2つの組み合わせよりも優れています。
論文 参考訳(メタデータ) (2019-12-27T02:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。