論文の概要: Rethinking Query-Key Pairwise Interactions in Vision Transformers
- arxiv url: http://arxiv.org/abs/2207.00188v2
- Date: Mon, 4 Jul 2022 02:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 10:22:43.290202
- Title: Rethinking Query-Key Pairwise Interactions in Vision Transformers
- Title(参考訳): 視覚変換器におけるクエリキーペアワイズインタラクションの再考
- Authors: Cheng Li, Yangxin Liu
- Abstract要約: 本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
- 参考スコア(独自算出の注目度): 5.141895475956681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers have achieved state-of-the-art performance in many visual
tasks. Due to the quadratic computational and memory complexities of
self-attention, recent works either apply attention only to low-resolution
inputs or restrict the receptive field to a small local region. To overcome
these limitations, we propose key-only attention, which excludes query-key
pairwise interactions and uses a compute-efficient saliency-gate to obtain
attention weights, modeling local-global interactions in all stages. Key-only
attention has linear computational and memory complexities w.r.t input size. We
use alternate layout to hybridize convolution and attention layers instead of
grafting which is suggested by previous works, so that all stages can benefit
from both spatial attentions and convolutions. We leverage these improvements
to develop a new self-attention model family, LinGlos, which reach
state-of-the-art accuracies on the parameter-limited setting of ImageNet
classification benchmark, and outperform baselines significantly in downstream
tasks, e.g., COCO object detection and ADE20K semantic segmentation.
- Abstract(参考訳): 視覚トランスフォーマーは多くの視覚タスクで最先端のパフォーマンスを達成しています。
セルフアテンションの二次計算とメモリの複雑さのために、最近の研究は低解像度入力にのみ注意を向けるか、受容場を小さな局所領域に制限するかのどちらかである。
これらの制約を克服するため,我々は,問合せキー対の相互作用を除外し,計算効率の高いサリエンシーゲートを用いて注意重み付けを行い,すべての段階における局所的グローバルインタラクションをモデル化するキーのみの注意手法を提案する。
キーのみの注意は線形計算とメモリの複雑度 w.r.t 入力サイズを持つ。
コンボリューションとアテンション層をハイブリッド化するために, 従来の研究で示唆されていたグラフトではなく, コンボリューションとアテンション層を交互に配置する。
我々はこれらの改良を活用して、新しい自己注意モデルファミリーLinGlosを開発し、ImageNet分類ベンチマークのパラメータ制限設定で最先端の精度に達し、例えばCOCOオブジェクト検出やADE20Kセマンティックセグメンテーションといった下流タスクにおいて、ベースラインを大幅に上回っている。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - RFAConv: Innovating Spatial Attention and Standard Convolutional Operation [7.2646541547165056]
RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。
RFAは受容場空間的特徴に重点を置いているが、大規模な畳み込みカーネルに対して効果的な注意重みを与える。
計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。
論文 参考訳(メタデータ) (2023-04-06T16:21:56Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。