論文の概要: Mamba-Adaptor: State Space Model Adaptor for Visual Recognition
- arxiv url: http://arxiv.org/abs/2505.12685v1
- Date: Mon, 19 May 2025 04:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.39721
- Title: Mamba-Adaptor: State Space Model Adaptor for Visual Recognition
- Title(参考訳): Mamba-Adaptor: 視覚認識のための状態空間モデルアダプタ
- Authors: Fei Xie, Jiahao Nie, Yujin Tang, Wenkang Zhang, Hongshen Zhao,
- Abstract要約: 本稿では,Mambaモデルに対する視覚タスクアダプタ(Adaptor-T)とアダプタ-S(Adaptor-S)の2つの機能モジュールからなる視覚タスクアダプタ(Adaptor)を開発する。
私たちのMamba-AdaptorはImageNetとCOCOベンチマークで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 5.282318851833395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent State Space Models (SSM), especially Mamba, have demonstrated impressive performance in visual modeling and possess superior model efficiency. However, the application of Mamba to visual tasks suffers inferior performance due to three main constraints existing in the sequential model: 1) Casual computing is incapable of accessing global context; 2) Long-range forgetting when computing the current hidden states; 3) Weak spatial structural modeling due to the transformed sequential input. To address these issues, we investigate a simple yet powerful vision task Adaptor for Mamba models, which consists of two functional modules: Adaptor-T and Adaptor-S. When solving the hidden states for SSM, we apply a lightweight prediction module Adaptor-T to select a set of learnable locations as memory augmentations to ease long-range forgetting issues. Moreover, we leverage Adapator-S, composed of multi-scale dilated convolutional kernels, to enhance the spatial modeling and introduce the image inductive bias into the feature output. Both modules can enlarge the context modeling in casual computing, as the output is enhanced by the inaccessible features. We explore three usages of Mamba-Adaptor: A general visual backbone for various vision tasks; A booster module to raise the performance of pretrained backbones; A highly efficient fine-tuning module that adapts the base model for transfer learning tasks. Extensive experiments verify the effectiveness of Mamba-Adaptor in three settings. Notably, our Mamba-Adaptor achieves state-of the-art performance on the ImageNet and COCO benchmarks.
- Abstract(参考訳): 最近のステート・スペース・モデル(SSM)、特にマンバは視覚モデルにおいて優れた性能を示し、優れたモデル効率を有する。
しかし、マンバの視覚的タスクへの応用は、シーケンシャルモデルに3つの主要な制約があるため、性能が劣る。
1)カジュアル・コンピューティングは,グローバル・コンテクストにアクセスできない。
2) 現在の隠蔽状態を計算するときの長距離忘れ
3) 逐次入力による弱空間構造モデリング
これらの問題に対処するため,Mamba モデル用のシンプルな視覚タスク Adaptor について検討した。
本研究では,SSMの隠れ状態を解決するために,学習可能な場所の集合をメモリ拡張として選択するために,軽量な予測モジュールAdaptor-Tを適用した。
さらに,マルチスケール拡張畳み込みカーネルからなるAdapator-Sを活用し,空間モデルを強化し,特徴出力に画像帰納バイアスを導入する。
どちらのモジュールも、アクセシブルな機能によって出力が強化されるため、カジュアルコンピューティングにおいてコンテキストモデリングを拡大することができる。
様々な視覚タスクのための一般的な視覚的バックボーン、事前訓練されたバックボーンの性能を高めるブースターモジュール、トランスファー学習タスクのベースモデルに適応する高度に効率的な微調整モジュールの3つについて検討する。
広範囲な実験により、3つの設定でMamba-Adaptorの有効性が検証された。
特に、私たちのMamba-AdaptorはImageNetとCOCOベンチマークで最先端のパフォーマンスを実現しています。
関連論文リスト
- DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - SPMamba: State-space model is all you need in speech separation [20.168153319805665]
CNNベースの音声分離モデルは、局所的な受容的場制限に直面し、長期間の依存関係を効果的にキャプチャできない。
本稿では,SPMambaという音声分離手法を提案する。
このモデルは、TF-GridNetアーキテクチャに基づいており、従来のBLSTMモジュールを双方向のMambaモジュールに置き換えている。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。