論文の概要: MFil-Mamba: Multi-Filter Scanning for Spatial Redundancy-Aware Visual State Space Models
- arxiv url: http://arxiv.org/abs/2603.20074v1
- Date: Fri, 20 Mar 2026 15:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.21829
- Title: MFil-Mamba: Multi-Filter Scanning for Spatial Redundancy-Aware Visual State Space Models
- Title(参考訳): MFil-Mamba:空間冗長性を考慮した空間状態空間モデルのためのマルチフィルター走査
- Authors: Puskal Khadka, KC Santosh,
- Abstract要約: MFil-Mambaは、マルチフィルタスキャニングバックボーン上に構築された新しいビジュアルステートスペースアーキテクチャである。
MFil-Mambaは、様々なベンチマークで既存の最先端モデルよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 3.1409536087595953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs), especially recent Mamba architecture, have achieved remarkable success in sequence modeling tasks. However, extending SSMs to computer vision remains challenging due to the non-sequential structure of visual data and its complex 2D spatial dependencies. Although several early studies have explored adapting selective SSMs for vision applications, most approaches primarily depend on employing various traversal strategies over the same input. This introduces redundancy and distorts the intricate spatial relationships within images. To address these challenges, we propose MFil-Mamba, a novel visual state space architecture built on a multi-filter scanning backbone. Unlike fixed multi-directional traversal methods, our design enables each scan to capture unique and contextually relevant spatial information while minimizing redundancy. Furthermore, we incorporate an adaptive weighting mechanism to effectively fuse outputs from multiple scans in addition to architectural enhancements. MFil-Mamba achieves superior performance over existing state-of-the-art models across various benchmarks that include image classification, object detection, instance segmentation, and semantic segmentation. For example, our tiny variant attains 83.2% top-1 accuracy on ImageNet-1K, 47.3% box AP and 42.7% mask AP on MS COCO, and 48.5% mIoU on the ADE20K dataset. Code and models are available at https://github.com/puskal-khadka/MFil-Mamba.
- Abstract(参考訳): 状態空間モデル(SSM)、特に最近のMambaアーキテクチャは、シーケンスモデリングタスクにおいて顕著な成功を収めた。
しかし、視覚データの非逐次構造と複雑な2次元空間依存性のため、SSMをコンピュータビジョンに拡張することは依然として困難である。
いくつかの初期の研究は視覚応用のための選択的SSMの適応を研究してきたが、ほとんどのアプローチは、主に同じ入力に対して様々なトラバース戦略を採用することに依存している。
これは冗長性を導入し、画像内の複雑な空間関係を歪ませる。
これらの課題に対処するために,マルチフィルタスキャニングバックボーン上に構築された新しい視覚状態空間アーキテクチャであるMFil-Mambaを提案する。
固定された多方向トラバーサル法とは異なり、各スキャンは冗長性を最小化しつつ、一意かつ文脈的に関係のある空間情報をキャプチャすることができる。
さらに、適応重み付け機構を導入し、複数のスキャンからの出力を効果的に融合させるとともに、アーキテクチャの強化も行う。
MFil-Mambaは、画像分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む様々なベンチマークにおいて、既存の最先端モデルよりも優れたパフォーマンスを実現している。
例えば、ImageNet-1Kでは83.2%、MS COCOでは47.3%、マスクAPでは42.7%、ADE20Kデータセットでは48.5%である。
コードとモデルはhttps://github.com/puskal-khadka/MFil-Mamba.comで公開されている。
関連論文リスト
- DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Spatial-Mamba: Effective Visual State Space Models via Structure-aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文 参考訳(メタデータ) (2024-10-19T12:56:58Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。