論文の概要: MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition
- arxiv url: http://arxiv.org/abs/2209.01620v1
- Date: Wed, 31 Aug 2022 06:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:02:03.824538
- Title: MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition
- Title(参考訳): MAFormer:視覚認識のためのマルチスケールアテンションフュージョンを用いたトランスフォーマーネットワーク
- Authors: Yunhao Wang, Huixin Sun, Xiaodi Wang, Bin Zhang, Chao Li, Ying Xin,
Baochang Zhang, Errui Ding, Shumin Han
- Abstract要約: マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 45.68567088645708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer and its variants have demonstrated great potential in
various computer vision tasks. But conventional vision transformers often focus
on global dependency at a coarse level, which suffer from a learning challenge
on global relationships and fine-grained representation at a token level. In
this paper, we introduce Multi-scale Attention Fusion into transformer
(MAFormer), which explores local aggregation and global feature extraction in a
dual-stream framework for visual recognition. We develop a simple but effective
module to explore the full potential of transformers for visual representation
by learning fine-grained and coarse-grained features at a token level and
dynamically fusing them. Our Multi-scale Attention Fusion (MAF) block consists
of: i) a local window attention branch that learns short-range interactions
within windows, aggregating fine-grained local features; ii) global feature
extraction through a novel Global Learning with Down-sampling (GLD) operation
to efficiently capture long-range context information within the whole image;
iii) a fusion module that self-explores the integration of both features via
attention. Our MAFormer achieves state-of-the-art performance on common vision
tasks. In particular, MAFormer-L achieves 85.9$\%$ Top-1 accuracy on ImageNet,
surpassing CSWin-B and LV-ViT-L by 1.7$\%$ and 0.6$\%$ respectively. On MSCOCO,
MAFormer outperforms the prior art CSWin by 1.7$\%$ mAPs on object detection
and 1.4$\%$ on instance segmentation with similar-sized parameters,
demonstrating the potential to be a general backbone network.
- Abstract(参考訳): Vision Transformerとその変種は、様々なコンピュータビジョンタスクにおいて大きな可能性を証明している。
しかし、従来のビジョントランスフォーマーは、大まかなレベルでのグローバル依存に焦点を当てることが多く、グローバルリレーションとトークンレベルでのきめ細かい表現の学習課題に苦しむ。
本稿では,視覚認識のためのデュアルストリームフレームワークにおいて,局所的なアグリゲーションとグローバル特徴抽出を探索するtransformer (maformer) へのマルチスケールアテンション融合を提案する。
トークンレベルで細粒度および粗粒度の特徴を学習し,それを動的に融合させることにより,視覚表現のためのトランスフォーマーの潜在能力を探索する。
我々のマルチスケールアテンション・フュージョン(MAF)ブロックは以下の通りである。
一 ウィンドウ内の短期的な相互作用を学習し、きめ細かい局所的な特徴を集約するローカルウィンドウ注意ブランチ
二 ダウンサンプリング(gld)操作による新しいグローバルラーニングによるグローバル特徴抽出により、画像全体の長距離コンテキスト情報を効率よく取得すること。
三 注意力による両機能の統合を自己探究する融合モジュール
私たちのmaformerは、共通のビジョンタスクで最先端のパフォーマンスを実現します。
特に、MaFormer-L は ImageNet で85.9$\%$ Top-1 の精度を達成し、CSWin-B と LV-ViT-L をそれぞれ 1.7$\% と 0.6$\% で上回っている。
MSCOCOでは、MAFormerは、オブジェクト検出において1.7$\%$ mAPs、類似サイズのパラメータを持つインスタンスセグメンテーションにおいて1.4$\%$で、CSWinよりも優れており、一般的なバックボーンネットワークである可能性を示している。
関連論文リスト
- INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。