論文の概要: Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion
- arxiv url: http://arxiv.org/abs/2410.15091v1
- Date: Sat, 19 Oct 2024 12:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:47.914977
- Title: Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion
- Title(参考訳): 空間マンバ:構造認識状態融合による効率的な視覚状態空間モデル
- Authors: Chaodong Xiao, Minghan Li, Zhengqiang Zhang, Deyu Meng, Lei Zhang,
- Abstract要約: SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
- 参考スコア(独自算出の注目度): 46.82975707531064
- License:
- Abstract: Selective state space models (SSMs), such as Mamba, highly excel at capturing long-range dependencies in 1D sequential data, while their applications to 2D vision tasks still face challenges. Current visual SSMs often convert images into 1D sequences and employ various scanning patterns to incorporate local spatial dependencies. However, these methods are limited in effectively capturing the complex image spatial structures and the increased computational cost caused by the lengthened scanning paths. To address these limitations, we propose Spatial-Mamba, a novel approach that establishes neighborhood connectivity directly in the state space. Instead of relying solely on sequential state transitions, we introduce a structure-aware state fusion equation, which leverages dilated convolutions to capture image spatial structural dependencies, significantly enhancing the flow of visual contextual information. Spatial-Mamba proceeds in three stages: initial state computation in a unidirectional scan, spatial context acquisition through structure-aware state fusion, and final state computation using the observation equation. Our theoretical analysis shows that Spatial-Mamba unifies the original Mamba and linear attention under the same matrix multiplication framework, providing a deeper understanding of our method. Experimental results demonstrate that Spatial-Mamba, even with a single scan, attains or surpasses the state-of-the-art SSM-based models in image classification, detection and segmentation. Source codes and trained models can be found at $\href{https://github.com/EdwardChasel/Spatial-Mamba}{\text{this https URL}}$.
- Abstract(参考訳): Mambaのような選択的な状態空間モデル(SSM)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに非常に優れており、2Dビジョンタスクへの応用は依然として課題に直面している。
現在のビジュアルSSMはイメージを1Dシーケンスに変換し、様々な走査パターンを用いて局所的な空間依存を組み込む。
しかし、これらの手法は、複雑な画像空間構造を効果的に捉え、走査経路の延長による計算コストの増大に制限されている。
これらの制約に対処するため,州空間に直接接続する新しいアプローチであるSpatial-Mambaを提案する。
逐次状態遷移のみに頼るのではなく、拡張畳み込みを利用して画像空間構造依存を捉える構造認識状態融合方程式を導入し、視覚的文脈情報のフローを大幅に向上させる。
空間マンバは、一方向走査における初期状態計算、構造認識状態融合による空間コンテキスト取得、観測方程式を用いた最終状態計算の3段階で進行する。
理論的解析により,空間マンバは元のマンバと線形の注意を同じ行列乗算フレームワークの下で統一し,本手法のより深い理解を提供することが示された。
実験の結果,Spatial-Mambaは1回のスキャンでも,画像分類,検出,セグメンテーションにおいて最先端のSSMモデルを達成したり,超えたりしていることがわかった。
ソースコードとトレーニングされたモデルは、$\href{https://github.com/EdwardChasel/Spatial-Mamba}{\text{this https URL}}$で見ることができる。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks [47.49096400786856]
State-Space Models (SSM) は、長年のトランスフォーマーアーキテクチャに代わる強力で効率的な代替品として最近登場した。
多次元の定式化から始めて、現代の選択的状態空間技術を再導出する。
Mamba2Dは、ImageNet-1Kデータセットを用いた標準的な画像分類評価において、視覚タスクに対するSSMの事前適応と同等の性能を示す。
論文 参考訳(メタデータ) (2024-12-20T18:50:36Z) - Image Forgery Localization with State Space Models [6.6222439382291]
選択SSMを利用した画像フォージェリローカライズ手法であるLoMaを提案する。
LoMaは、空間領域を横切り、改ざんされた画像を順序付けられたパッチシーケンスに変換するために、アトラス選択的スキャンを使用する。
これは、SSMベースのモデルに基づいて構築された最初の画像フォージェリーローカライゼーションモデルである。
論文 参考訳(メタデータ) (2024-12-15T15:10:53Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising [13.1240990099267]
HSI復調のためのメモリ効率の良い空間スペクトル(SSUMamba)を導入する。
Mambaは、その顕著な長距離依存性モデリング機能で知られている。
SSUMambaは、トランスフォーマーベースの手法に比べて、バッチ当たりのメモリ消費が低い優れたデノナイズ結果が得られる。
論文 参考訳(メタデータ) (2024-05-02T20:44:26Z) - S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification [44.99672241508994]
ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。
ハイパースペクトル画像分類のための空間スペクトル状態空間モデルであるS$2$Mambaを提案する。
論文 参考訳(メタデータ) (2024-04-28T15:12:56Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。