論文の概要: Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion
- arxiv url: http://arxiv.org/abs/2410.15091v1
- Date: Sat, 19 Oct 2024 12:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:47.914977
- Title: Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion
- Title(参考訳): 空間マンバ:構造認識状態融合による効率的な視覚状態空間モデル
- Authors: Chaodong Xiao, Minghan Li, Zhengqiang Zhang, Deyu Meng, Lei Zhang,
- Abstract要約: SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。
本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。
画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
- 参考スコア(独自算出の注目度): 46.82975707531064
- License:
- Abstract: Selective state space models (SSMs), such as Mamba, highly excel at capturing long-range dependencies in 1D sequential data, while their applications to 2D vision tasks still face challenges. Current visual SSMs often convert images into 1D sequences and employ various scanning patterns to incorporate local spatial dependencies. However, these methods are limited in effectively capturing the complex image spatial structures and the increased computational cost caused by the lengthened scanning paths. To address these limitations, we propose Spatial-Mamba, a novel approach that establishes neighborhood connectivity directly in the state space. Instead of relying solely on sequential state transitions, we introduce a structure-aware state fusion equation, which leverages dilated convolutions to capture image spatial structural dependencies, significantly enhancing the flow of visual contextual information. Spatial-Mamba proceeds in three stages: initial state computation in a unidirectional scan, spatial context acquisition through structure-aware state fusion, and final state computation using the observation equation. Our theoretical analysis shows that Spatial-Mamba unifies the original Mamba and linear attention under the same matrix multiplication framework, providing a deeper understanding of our method. Experimental results demonstrate that Spatial-Mamba, even with a single scan, attains or surpasses the state-of-the-art SSM-based models in image classification, detection and segmentation. Source codes and trained models can be found at $\href{https://github.com/EdwardChasel/Spatial-Mamba}{\text{this https URL}}$.
- Abstract(参考訳): Mambaのような選択的な状態空間モデル(SSM)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに非常に優れており、2Dビジョンタスクへの応用は依然として課題に直面している。
現在のビジュアルSSMはイメージを1Dシーケンスに変換し、様々な走査パターンを用いて局所的な空間依存を組み込む。
しかし、これらの手法は、複雑な画像空間構造を効果的に捉え、走査経路の延長による計算コストの増大に制限されている。
これらの制約に対処するため,州空間に直接接続する新しいアプローチであるSpatial-Mambaを提案する。
逐次状態遷移のみに頼るのではなく、拡張畳み込みを利用して画像空間構造依存を捉える構造認識状態融合方程式を導入し、視覚的文脈情報のフローを大幅に向上させる。
空間マンバは、一方向走査における初期状態計算、構造認識状態融合による空間コンテキスト取得、観測方程式を用いた最終状態計算の3段階で進行する。
理論的解析により,空間マンバは元のマンバと線形の注意を同じ行列乗算フレームワークの下で統一し,本手法のより深い理解を提供することが示された。
実験の結果,Spatial-Mambaは1回のスキャンでも,画像分類,検出,セグメンテーションにおいて最先端のSSMモデルを達成したり,超えたりしていることがわかった。
ソースコードとトレーニングされたモデルは、$\href{https://github.com/EdwardChasel/Spatial-Mamba}{\text{this https URL}}$で見ることができる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba [0.43512163406552]
Mambaとのステートスペースモデル(SSM)は、線形複雑性を伴う長距離依存性モデリングを大いに約束している。
1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。
その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。
論文 参考訳(メタデータ) (2024-06-10T03:24:43Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising [13.1240990099267]
HSI復調のためのメモリ効率の良い空間スペクトル(SSUMamba)を導入する。
Mambaは、その顕著な長距離依存性モデリング機能で知られている。
SSUMambaは、トランスフォーマーベースの手法に比べて、バッチ当たりのメモリ消費が低い優れたデノナイズ結果が得られる。
論文 参考訳(メタデータ) (2024-05-02T20:44:26Z) - S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification [44.99672241508994]
ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。
ハイパースペクトル画像分類のための空間スペクトル状態空間モデルであるS$2$Mambaを提案する。
論文 参考訳(メタデータ) (2024-04-28T15:12:56Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。