論文の概要: MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition
- arxiv url: http://arxiv.org/abs/2209.01620v1
- Date: Wed, 31 Aug 2022 06:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:02:03.824538
- Title: MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition
- Title(参考訳): MAFormer:視覚認識のためのマルチスケールアテンションフュージョンを用いたトランスフォーマーネットワーク
- Authors: Yunhao Wang, Huixin Sun, Xiaodi Wang, Bin Zhang, Chao Li, Ying Xin,
Baochang Zhang, Errui Ding, Shumin Han
- Abstract要約: マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 45.68567088645708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer and its variants have demonstrated great potential in
various computer vision tasks. But conventional vision transformers often focus
on global dependency at a coarse level, which suffer from a learning challenge
on global relationships and fine-grained representation at a token level. In
this paper, we introduce Multi-scale Attention Fusion into transformer
(MAFormer), which explores local aggregation and global feature extraction in a
dual-stream framework for visual recognition. We develop a simple but effective
module to explore the full potential of transformers for visual representation
by learning fine-grained and coarse-grained features at a token level and
dynamically fusing them. Our Multi-scale Attention Fusion (MAF) block consists
of: i) a local window attention branch that learns short-range interactions
within windows, aggregating fine-grained local features; ii) global feature
extraction through a novel Global Learning with Down-sampling (GLD) operation
to efficiently capture long-range context information within the whole image;
iii) a fusion module that self-explores the integration of both features via
attention. Our MAFormer achieves state-of-the-art performance on common vision
tasks. In particular, MAFormer-L achieves 85.9$\%$ Top-1 accuracy on ImageNet,
surpassing CSWin-B and LV-ViT-L by 1.7$\%$ and 0.6$\%$ respectively. On MSCOCO,
MAFormer outperforms the prior art CSWin by 1.7$\%$ mAPs on object detection
and 1.4$\%$ on instance segmentation with similar-sized parameters,
demonstrating the potential to be a general backbone network.
- Abstract(参考訳): Vision Transformerとその変種は、様々なコンピュータビジョンタスクにおいて大きな可能性を証明している。
しかし、従来のビジョントランスフォーマーは、大まかなレベルでのグローバル依存に焦点を当てることが多く、グローバルリレーションとトークンレベルでのきめ細かい表現の学習課題に苦しむ。
本稿では,視覚認識のためのデュアルストリームフレームワークにおいて,局所的なアグリゲーションとグローバル特徴抽出を探索するtransformer (maformer) へのマルチスケールアテンション融合を提案する。
トークンレベルで細粒度および粗粒度の特徴を学習し,それを動的に融合させることにより,視覚表現のためのトランスフォーマーの潜在能力を探索する。
我々のマルチスケールアテンション・フュージョン(MAF)ブロックは以下の通りである。
一 ウィンドウ内の短期的な相互作用を学習し、きめ細かい局所的な特徴を集約するローカルウィンドウ注意ブランチ
二 ダウンサンプリング(gld)操作による新しいグローバルラーニングによるグローバル特徴抽出により、画像全体の長距離コンテキスト情報を効率よく取得すること。
三 注意力による両機能の統合を自己探究する融合モジュール
私たちのmaformerは、共通のビジョンタスクで最先端のパフォーマンスを実現します。
特に、MaFormer-L は ImageNet で85.9$\%$ Top-1 の精度を達成し、CSWin-B と LV-ViT-L をそれぞれ 1.7$\% と 0.6$\% で上回っている。
MSCOCOでは、MAFormerは、オブジェクト検出において1.7$\%$ mAPs、類似サイズのパラメータを持つインスタンスセグメンテーションにおいて1.4$\%$で、CSWinよりも優れており、一般的なバックボーンネットワークである可能性を示している。
関連論文リスト
- Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Progressive Multi-stage Interactive Training in Mobile Network for
Fine-grained Recognition [8.727216421226814]
再帰型モザイク発電機(RMG-PMSI)を用いたプログレッシブ多段階インタラクティブトレーニング手法を提案する。
まず、異なる位相の異なる画像を生成する再帰モザイク発生器(RMG)を提案する。
次に、異なるステージの特徴は、異なるステージの対応する特徴を強化し補完するマルチステージインタラクション(MSI)モジュールを通過する。
RMG-PMSIは高い堅牢性と伝達性で性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-12-08T10:50:03Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。