Fugu-MT 論文翻訳(概要): MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition

論文の概要: MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition

arxiv url: http://arxiv.org/abs/2209.01620v1
Date: Wed, 31 Aug 2022 06:29:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-11 13:02:03.824538
Title: MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition
Title（参考訳）: MAFormer:視覚認識のためのマルチスケールアテンションフュージョンを用いたトランスフォーマーネットワーク
Authors: Yunhao Wang, Huixin Sun, Xiaodi Wang, Bin Zhang, Chao Li, Ying Xin, Baochang Zhang, Errui Ding, Shumin Han
Abstract要約: マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。 MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 45.68567088645708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision Transformer and its variants have demonstrated great potential in various computer vision tasks. But conventional vision transformers often focus on global dependency at a coarse level, which suffer from a learning challenge on global relationships and fine-grained representation at a token level. In this paper, we introduce Multi-scale Attention Fusion into transformer (MAFormer), which explores local aggregation and global feature extraction in a dual-stream framework for visual recognition. We develop a simple but effective module to explore the full potential of transformers for visual representation by learning fine-grained and coarse-grained features at a token level and dynamically fusing them. Our Multi-scale Attention Fusion (MAF) block consists of: i) a local window attention branch that learns short-range interactions within windows, aggregating fine-grained local features; ii) global feature extraction through a novel Global Learning with Down-sampling (GLD) operation to efficiently capture long-range context information within the whole image; iii) a fusion module that self-explores the integration of both features via attention. Our MAFormer achieves state-of-the-art performance on common vision tasks. In particular, MAFormer-L achieves 85.9$\%$ Top-1 accuracy on ImageNet, surpassing CSWin-B and LV-ViT-L by 1.7$\%$ and 0.6$\%$ respectively. On MSCOCO, MAFormer outperforms the prior art CSWin by 1.7$\%$ mAPs on object detection and 1.4$\%$ on instance segmentation with similar-sized parameters, demonstrating the potential to be a general backbone network.
Abstract（参考訳）: Vision Transformerとその変種は、様々なコンピュータビジョンタスクにおいて大きな可能性を証明している。しかし、従来のビジョントランスフォーマーは、大まかなレベルでのグローバル依存に焦点を当てることが多く、グローバルリレーションとトークンレベルでのきめ細かい表現の学習課題に苦しむ。本稿では,視覚認識のためのデュアルストリームフレームワークにおいて,局所的なアグリゲーションとグローバル特徴抽出を探索するtransformer (maformer) へのマルチスケールアテンション融合を提案する。トークンレベルで細粒度および粗粒度の特徴を学習し,それを動的に融合させることにより,視覚表現のためのトランスフォーマーの潜在能力を探索する。我々のマルチスケールアテンション・フュージョン(MAF)ブロックは以下の通りである。一ウィンドウ内の短期的な相互作用を学習し、きめ細かい局所的な特徴を集約するローカルウィンドウ注意ブランチ二ダウンサンプリング(gld)操作による新しいグローバルラーニングによるグローバル特徴抽出により、画像全体の長距離コンテキスト情報を効率よく取得すること。三注意力による両機能の統合を自己探究する融合モジュール私たちのmaformerは、共通のビジョンタスクで最先端のパフォーマンスを実現します。特に、MaFormer-L は ImageNet で85.9$\%$ Top-1 の精度を達成し、CSWin-B と LV-ViT-L をそれぞれ 1.7$\% と 0.6$\% で上回っている。 MSCOCOでは、MAFormerは、オブジェクト検出において1.7$\%$ mAPs、類似サイズのパラメータを持つインスタンスセグメンテーションにおいて1.4$\%$で、CSWinよりも優れており、一般的なバックボーンネットワークである可能性を示している。

関連論文リスト

LM-Net: A Light-weight and Multi-scale Network for Medical Image Segmentation [7.963884317408774]
現在の医療画像セグメンテーションアプローチは、マルチスケール情報を深く探究するのに限界がある。本稿では,セグメンテーションの精度を高めるために,新しい軽量マルチスケールアーキテクチャ (LM-Net) を提案する。提案モデルでは,4.66GのFLOPと5.4Mのパラメータしか必要とせず,従来の手法を超越した最新結果が得られる。
論文参考訳（メタデータ） (2025-01-07T14:47:15Z)
Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文参考訳（メタデータ） (2024-11-21T18:59:08Z)
Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。 ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文参考訳（メタデータ） (2024-09-11T03:04:46Z)
INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文参考訳（メタデータ） (2024-07-23T06:02:30Z)
CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-07-09T08:47:13Z)
Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。 LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文参考訳（メタデータ） (2024-06-25T16:12:20Z)
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-04T01:03:58Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Conformer: Local Features Coupling Global Representations for Visual Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文参考訳（メタデータ） (2021-05-09T10:00:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。