論文の概要: A2Mamba: Attention-augmented State Space Models for Visual Recognition
- arxiv url: http://arxiv.org/abs/2507.16624v1
- Date: Tue, 22 Jul 2025 14:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.151003
- Title: A2Mamba: Attention-augmented State Space Models for Visual Recognition
- Title(参考訳): A2Mamba: 視覚認識のための注意増強された状態空間モデル
- Authors: Meng Lou, Yunxiang Fu, Yizhou Yu,
- Abstract要約: 本稿では,トランスフォーマー-マンバハイブリッドネットワークアーキテクチャであるA2Mambaを提案する。
A2SSMのキーステップは、空間的にSSMの隠された状態を集約することで、異種交叉アテンションを実行する。
私たちのA2Mambaは、視覚認識タスクにおいて、以前のConvNet-、Transformer-、およびMambaベースのアーキテクチャよりも優れています。
- 参考スコア(独自算出の注目度): 45.68176825375723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers and Mamba, initially invented for natural language processing, have inspired backbone architectures for visual recognition. Recent studies integrated Local Attention Transformers with Mamba to capture both local details and global contexts. Despite competitive performance, these methods are limited to simple stacking of Transformer and Mamba layers without any interaction mechanism between them. Thus, deep integration between Transformer and Mamba layers remains an open problem. We address this problem by proposing A2Mamba, a powerful Transformer-Mamba hybrid network architecture, featuring a new token mixer termed Multi-scale Attention-augmented State Space Model (MASS), where multi-scale attention maps are integrated into an attention-augmented SSM (A2SSM). A key step of A2SSM performs a variant of cross-attention by spatially aggregating the SSM's hidden states using the multi-scale attention maps, which enhances spatial dependencies pertaining to a two-dimensional space while improving the dynamic modeling capabilities of SSMs. Our A2Mamba outperforms all previous ConvNet-, Transformer-, and Mamba-based architectures in visual recognition tasks. For instance, A2Mamba-L achieves an impressive 86.1% top-1 accuracy on ImageNet-1K. In semantic segmentation, A2Mamba-B exceeds CAFormer-S36 by 2.5% in mIoU, while exhibiting higher efficiency. In object detection and instance segmentation with Cascade Mask R-CNN, A2Mamba-S surpasses MambaVision-B by 1.2%/0.9% in AP^b/AP^m, while having 40% less parameters. Code is publicly available at https://github.com/LMMMEng/A2Mamba.
- Abstract(参考訳): TransformersとMambaは当初自然言語処理のために発明され、視覚認識のためのバックボーンアーキテクチャにインスピレーションを与えている。
最近の研究は、ローカルアテンショントランスフォーマーをMambaと統合して、ローカルディテールとグローバルコンテクストの両方をキャプチャしている。
競合する性能にもかかわらず、これらの手法はTransformer層とMamba層の単純な積み重ねに限られる。
したがって、Transformer層とMamba層との深い統合は依然として未解決の問題である。
本稿では,マルチスケールアテンション拡張状態空間モデル (MASS) と呼ばれるトークンミキサーを特徴とする,強力なトランスフォーマー-マンバハイブリッドネットワークアーキテクチャであるA2Mambaを提案し,マルチスケールアテンションマップをアテンション強化SSM(A2SSM)に統合した。
A2SSMの鍵となるステップは、マルチスケールのアテンションマップを用いて、SSMの隠れ状態を空間的に集約し、SSMの動的モデリング能力を改善しながら、2次元空間に関連する空間依存性を高めることで、異性間注意の変形を行う。
私たちのA2Mambaは、視覚認識タスクにおいて、以前のConvNet-、Transformer-、およびMambaベースのアーキテクチャよりも優れています。
例えば、A2Mamba-L は ImageNet-1K で86.1% の精度を達成している。
セマンティックセグメンテーションでは、A2Mamba-BはCAFormer-S36を2.5%のmIoUで上回り、高い効率を示す。
Cascade Mask R-CNNによるオブジェクト検出とインスタンスセグメンテーションでは、A2Mamba-SはAP^b/AP^mでMambaVision-Bを1.2%/0.9%上回り、パラメータは40%少ない。
コードはhttps://github.com/LMMMEng/A2Mamba.comで公開されている。
関連論文リスト
- MambaOutRS: A Hybrid CNN-Fourier Architecture for Remote Sensing Image Classification [4.14360329494344]
リモートセンシング画像分類のための新しいハイブリッド畳み込みアーキテクチャであるMambaOutRSを紹介する。
MambaOutRSは、局所的な特徴抽出のためにスタック化されたGated CNNブロック上に構築され、新しいFourier Filter Gate (FFG)モジュールが導入されている。
論文 参考訳(メタデータ) (2025-06-24T12:20:11Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification [40.10133518650528]
画像の2次元空間構造を組み込んだ新しい2次元選択型SSMフレームワークである2DMambaを提案する。
WSI分類と生存分析のための10の公開データセットの実験では、2DMambaはAUCで2.48%、F1スコアで3.11%、精度で2.47%、Cインデックスで5.52%改善している。
論文 参考訳(メタデータ) (2024-12-01T05:42:58Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Hi-Mamba: Hierarchical Mamba for Efficient Image Super-Resolution [42.259283231048954]
状態空間モデル(SSM)は、線形複雑性を伴う長距離依存性をモデル化する上で、強力な表現能力を示している。
画像超解像(SR)のための新しい階層型マンバネットワーク、すなわちHi-Mambaを提案する。
論文 参考訳(メタデータ) (2024-10-14T04:15:04Z) - Sparse Mamba: Introducing Controllability, Observability, And Stability To Structural State Space Models [2.6353853440763118]
提案するS-Mambaにおいて,元のMamba SSMアーキテクチャに可制御性と可観測性の概念を導入する。
従来のMambaアーキテクチャの可制御性と可観測性を強化した上で, 難易度を5%改善し, トレーニング時間を3%短縮した。
論文 参考訳(メタデータ) (2024-08-31T23:25:12Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 GFLOPs [1.7648680700685022]
水中画像強調(UIE)技術は,光吸収・散乱による水中画像劣化問題に対処することを目的としている。
近年、畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースの手法が広く研究されている。
MambaUIEは、グローバルおよびローカル情報を効率的に合成することができ、非常に少数のパラメータを高い精度で保持する。
論文 参考訳(メタデータ) (2024-04-22T05:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。