論文の概要: Advancing Vision Transformers with Group-Mix Attention
- arxiv url: http://arxiv.org/abs/2311.15157v1
- Date: Sun, 26 Nov 2023 01:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 19:13:33.682452
- Title: Advancing Vision Transformers with Group-Mix Attention
- Title(参考訳): グループ混合型視覚トランスフォーマーの進歩
- Authors: Chongjian Ge, Xiaohan Ding, Zhan Tong, Li Yuan, Jiangliu Wang, Yibing
Song, Ping Luo
- Abstract要約: グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 59.585623293856735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have been shown to enhance visual recognition
through modeling long-range dependencies with multi-head self-attention (MHSA),
which is typically formulated as Query-Key-Value computation. However, the
attention map generated from the Query and Key captures only token-to-token
correlations at one single granularity. In this paper, we argue that
self-attention should have a more comprehensive mechanism to capture
correlations among tokens and groups (i.e., multiple adjacent tokens) for
higher representational capacity. Thereby, we propose Group-Mix Attention (GMA)
as an advanced replacement for traditional self-attention, which can
simultaneously capture token-to-token, token-to-group, and group-to-group
correlations with various group sizes. To this end, GMA splits the Query, Key,
and Value into segments uniformly and performs different group aggregations to
generate group proxies. The attention map is computed based on the mixtures of
tokens and group proxies and used to re-combine the tokens and groups in Value.
Based on GMA, we introduce a powerful backbone, namely GroupMixFormer, which
achieves state-of-the-art performance in image classification, object
detection, and semantic segmentation with fewer parameters than existing
models. For instance, GroupMixFormer-L (with 70.3M parameters and 384^2 input)
attains 86.2% Top-1 accuracy on ImageNet-1K without external data, while
GroupMixFormer-B (with 45.8M parameters) attains 51.2% mIoU on ADE20K.
- Abstract(参考訳): 視覚変換器 (ViTs) は、MHSA (Multi-head Self-attention) による長距離依存をモデル化することで、視覚認識を強化することが示されている。
しかし、Query and Keyから生成された注目マップは、1つの粒度でトークン間相関のみをキャプチャする。
本稿では,表現能力を高めるために,トークンとグループ(すなわち複数の隣接トークン)間の相関を捉えるための,より包括的なメカニズムを持つべきである。
そこで我々は,従来の自己注意の代替としてグループ・ミクス・アテンション(GMA)を提案し,トークン・ツー・トークン・ツー・グループ,グループ・ツー・グループ間の相関を様々なグループサイズで同時に捉えることができる。
この目的のために、GMAはQuery、Key、Valueを一様にセグメントに分割し、グループプロキシを生成するために異なるグループアグリゲーションを実行する。
アテンションマップはトークンとグループプロキシの混合に基づいて計算され、トークンとグループの値の再結合に使用される。
GMAに基づく強力なバックボーンであるGroupMixFormerを導入し、既存のモデルよりも少ないパラメータで画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを実現する。
例えば、GroupMixFormer-L(70.3Mパラメータと384^2入力)はImageNet-1Kで86.2%、GroupMixFormer-B(45.8Mパラメータ)はADE20Kで51.2% mIoUに達する。
関連論文リスト
- GroupedMixer: An Entropy Model with Group-wise Token-Mixers for Learned Image Compression [64.47244912937204]
本稿では,GroupedMixerと呼ばれるトランスフォーマーベースのエントロピーモデルを提案する。
GroupedMixerは、従来のトランスフォーマーベースの方法よりも高速なコーディング速度と圧縮性能の両方を享受している。
実験結果から,提案したGroupedMixerは高速圧縮速度で最先端の速度歪み特性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-02T10:48:22Z) - Towards Open-World Co-Salient Object Detection with Generative
Uncertainty-aware Group Selective Exchange-Masking [23.60044777118441]
我々は,CoSODモデルのロバスト性を高めるため,グループ選択的交換マスキング(GSEM)アプローチを導入する。
GSEMは、新しい学習戦略を用いて、各グループから画像のサブセットを選択し、選択した画像を交換する。
そこで我々は,非関連画像による不確実性と,グループ内の残りの関連画像のコンセンサス特性を同時に考慮するために,潜時可変ジェネレータブランチとCoSODトランスフォーマーブランチを設計した。
論文 参考訳(メタデータ) (2023-10-16T10:40:40Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Group-CAM: Group Score-Weighted Visual Explanations for Deep
Convolutional Networks [4.915848175689936]
グループスコア強調クラスアクティベーションマッピング(Group-CAM)と呼ばれる効率的なサリエンシーマップ生成法を提案する。
Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを生成する間は、ネットワークに数十のクエリしか必要としない。
論文 参考訳(メタデータ) (2021-03-25T14:16:02Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Fast Transformers with Clustered Attention [14.448898156256478]
本稿では,クエリ毎の注目度を計算する代わりに,クエリをクラスタにグループ化し,セントロイドのみの注意度を算出するクラスタ型注意度を提案する。
これにより、固定数のクラスタのシーケンス長に対する線形複雑性を持つモデルが得られる。
我々は,2つの自動音声認識データセットに対するアプローチを評価し,そのモデルが与えられた計算予算に対して常にバニラ変換器より優れていることを示す。
論文 参考訳(メタデータ) (2020-07-09T14:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。