Fugu-MT 論文翻訳(概要): Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion

論文の概要: Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion

arxiv url: http://arxiv.org/abs/2410.15091v1
Date: Sat, 19 Oct 2024 12:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.901641
Title: Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion
Title（参考訳）: 空間マンバ:構造認識状態融合による効率的な視覚状態空間モデル
Authors: Chaodong Xiao, Minghan Li, Zhengqiang Zhang, Deyu Meng, Lei Zhang,
Abstract要約: SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
参考スコア（独自算出の注目度）: 46.82975707531064
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Selective state space models (SSMs), such as Mamba, highly excel at capturing long-range dependencies in 1D sequential data, while their applications to 2D vision tasks still face challenges. Current visual SSMs often convert images into 1D sequences and employ various scanning patterns to incorporate local spatial dependencies. However, these methods are limited in effectively capturing the complex image spatial structures and the increased computational cost caused by the lengthened scanning paths. To address these limitations, we propose Spatial-Mamba, a novel approach that establishes neighborhood connectivity directly in the state space. Instead of relying solely on sequential state transitions, we introduce a structure-aware state fusion equation, which leverages dilated convolutions to capture image spatial structural dependencies, significantly enhancing the flow of visual contextual information. Spatial-Mamba proceeds in three stages: initial state computation in a unidirectional scan, spatial context acquisition through structure-aware state fusion, and final state computation using the observation equation. Our theoretical analysis shows that Spatial-Mamba unifies the original Mamba and linear attention under the same matrix multiplication framework, providing a deeper understanding of our method. Experimental results demonstrate that Spatial-Mamba, even with a single scan, attains or surpasses the state-of-the-art SSM-based models in image classification, detection and segmentation. Source codes and trained models can be found at $\href{https://github.com/EdwardChasel/Spatial-Mamba}{\text{this https URL}}$.
Abstract（参考訳）: Mambaのような選択的な状態空間モデル(SSM)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに非常に優れており、2Dビジョンタスクへの応用は依然として課題に直面している。現在のビジュアルSSMはイメージを1Dシーケンスに変換し、様々な走査パターンを用いて局所的な空間依存を組み込む。しかし、これらの手法は、複雑な画像空間構造を効果的に捉え、走査経路の延長による計算コストの増大に制限されている。これらの制約に対処するため,州空間に直接接続する新しいアプローチであるSpatial-Mambaを提案する。逐次状態遷移のみに頼るのではなく、拡張畳み込みを利用して画像空間構造依存を捉える構造認識状態融合方程式を導入し、視覚的文脈情報のフローを大幅に向上させる。空間マンバは、一方向走査における初期状態計算、構造認識状態融合による空間コンテキスト取得、観測方程式を用いた最終状態計算の3段階で進行する。理論的解析により,空間マンバは元のマンバと線形の注意を同じ行列乗算フレームワークの下で統一し,本手法のより深い理解を提供することが示された。実験の結果,Spatial-Mambaは1回のスキャンでも,画像分類,検出,セグメンテーションにおいて最先端のSSMモデルを達成したり,超えたりしていることがわかった。ソースコードとトレーニングされたモデルは、$\href{https://github.com/EdwardChasel/Spatial-Mamba}{\text{this https URL}}$で見ることができる。

関連論文リスト

DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文参考訳（メタデータ） (2025-01-02T13:56:23Z)
STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文参考訳（メタデータ） (2024-12-28T08:49:23Z)
Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks [47.49096400786856]
State-Space Models (SSM) は、長年のトランスフォーマーアーキテクチャに代わる強力で効率的な代替品として最近登場した。多次元の定式化から始めて、現代の選択的状態空間技術を再導出する。 Mamba2Dは、ImageNet-1Kデータセットを用いた標準的な画像分類評価において、視覚タスクに対するSSMの事前適応と同等の性能を示す。
論文参考訳（メタデータ） (2024-12-20T18:50:36Z)
Image Forgery Localization with State Space Models [6.6222439382291]
選択SSMを利用した画像フォージェリローカライズ手法であるLoMaを提案する。 LoMaは、空間領域を横切り、改ざんされた画像を順序付けられたパッチシーケンスに変換するために、アトラス選択的スキャンを使用する。これは、SSMベースのモデルに基づいて構築された最初の画像フォージェリーローカライゼーションモデルである。
論文参考訳（メタデータ） (2024-12-15T15:10:53Z)
SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。 SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文参考訳（メタデータ） (2024-11-10T00:35:14Z)
V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。 2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T11:11:06Z)
Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2024-06-18T15:15:12Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising [13.1240990099267]
HSI復調のためのメモリ効率の良い空間スペクトル(SSUMamba)を導入する。 Mambaは、その顕著な長距離依存性モデリング機能で知られている。 SSUMambaは、トランスフォーマーベースの手法に比べて、バッチ当たりのメモリ消費が低い優れたデノナイズ結果が得られる。
論文参考訳（メタデータ） (2024-05-02T20:44:26Z)
S$^2$Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification [44.99672241508994]
ハイパースペクトル画像(HSI)を用いた土地被覆解析は、空間分解能の低さと複雑なスペクトル情報のため、未解決の課題である。ハイパースペクトル画像分類のための空間スペクトル状態空間モデルであるS$2$Mambaを提案する。
論文参考訳（メタデータ） (2024-04-28T15:12:56Z)
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文参考訳（メタデータ） (2024-03-26T13:35:10Z)
VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。 VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文参考訳（メタデータ） (2024-01-18T17:55:39Z)
Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。 HSI再構成のための深層学習にHSI空間を埋め込んだCST 特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文参考訳（メタデータ） (2022-03-09T16:17:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。