論文の概要: RSMamba: Remote Sensing Image Classification with State Space Model
- arxiv url: http://arxiv.org/abs/2403.19654v1
- Date: Thu, 28 Mar 2024 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:04:56.079563
- Title: RSMamba: Remote Sensing Image Classification with State Space Model
- Title(参考訳): RSMamba:状態空間モデルを用いたリモートセンシング画像分類
- Authors: Keyan Chen, Bowen Chen, Chenyang Liu, Wenyuan Li, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
- 参考スコア(独自算出の注目度): 25.32283897448209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image classification forms the foundation of various understanding tasks, serving a crucial function in remote sensing image interpretation. The recent advancements of Convolutional Neural Networks (CNNs) and Transformers have markedly enhanced classification accuracy. Nonetheless, remote sensing scene classification remains a significant challenge, especially given the complexity and diversity of remote sensing scenarios and the variability of spatiotemporal resolutions. The capacity for whole-image understanding can provide more precise semantic cues for scene discrimination. In this paper, we introduce RSMamba, a novel architecture for remote sensing image classification. RSMamba is based on the State Space Model (SSM) and incorporates an efficient, hardware-aware design known as the Mamba. It integrates the advantages of both a global receptive field and linear modeling complexity. To overcome the limitation of the vanilla Mamba, which can only model causal sequences and is not adaptable to two-dimensional image data, we propose a dynamic multi-path activation mechanism to augment Mamba's capacity to model non-causal data. Notably, RSMamba maintains the inherent modeling mechanism of the vanilla Mamba, yet exhibits superior performance across multiple remote sensing image classification datasets. This indicates that RSMamba holds significant potential to function as the backbone of future visual foundation models. The code will be available at \url{https://github.com/KyanChen/RSMamba}.
- Abstract(参考訳): リモートセンシング画像分類は様々な理解タスクの基礎を形成し、リモートセンシング画像解釈において重要な役割を果たす。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーの最近の進歩により、分類精度が著しく向上した。
とはいえ、リモートセンシングシーンの分類は、特にリモートセンシングシナリオの複雑さと多様性と時空間分解能の変動性を考えると、大きな課題である。
全体像理解能力は、シーン識別のためのより正確な意味的手がかりを提供することができる。
本稿では,リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
これは、大域的受容場と線形モデリングの複雑さの両方の利点を統合する。
因果関係のみをモデル化でき、2次元画像データに適応できないバニラ・マンバの限界を克服するために,マンバの非因果関係をモデル化するための動的マルチパス活性化機構を提案する。
特に、RSMambaはバニラ・マンバの固有のモデリングメカニズムを維持しているが、複数のリモートセンシング画像分類データセットよりも優れた性能を示している。
このことは、RSMambaが将来の視覚基盤モデルのバックボーンとして機能する大きな可能性を秘めていることを示している。
コードは \url{https://github.com/KyanChen/RSMamba} で入手できる。
関連論文リスト
- MambaIRv2: Attentive State Space Restoration [96.4452232356586]
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
具体的には、提案された注意状態空間方程式は、スキャンされたシーケンスを超えることができ、単一のスキャンで画像の展開を容易にする。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - MambaReg: Mamba-Based Disentangled Convolutional Sparse Coding for Unsupervised Deformable Multi-Modal Image Registration [13.146228081053714]
従来の学習に基づくアプローチは、登録ネットワークを解釈不可能なブラックボックスと見なすことが多い。
我々は,マンバの長いシーケンスをキャプチャする強力な能力を統合した新しいマンバベースのアーキテクチャであるマンバレグを提案する。
ネットワークは,マルチモーダル画像間の相関を積極的に捉え,集中的な変形場予測を可能にする。
論文 参考訳(メタデータ) (2024-11-03T01:30:59Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model [7.842507196763463]
赤外(IR)画像の超解像は、均質な背景画素分布とスパースターゲット領域の課題に直面している。
マンバをベースとした(選択的構造化状態空間モデル)モデルの最近の進歩は、視覚タスクにおいて大きな可能性を示している。
IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model。
論文 参考訳(メタデータ) (2024-05-16T07:49:24Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation [7.922421805234563]
本稿では,この革新的な技術をリモートセンシングタスクに組み込むために,リモートセンシング画像セマンティックセマンティックセマンティフィケーションMamba (RS3Mamba) という新しいデュアルブランチネットワークを提案する。
RS3MambaはVSSブロックを使用して補助ブランチを構築し、畳み込みベースのメインブランチに追加のグローバル情報を提供する。
ISPRS VaihingenとLoveDA Urbanという2つの広く使われているデータセットの実験結果により、提案されたRS3Mambaの有効性と可能性を実証した。
論文 参考訳(メタデータ) (2024-04-03T04:59:28Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。