論文の概要: RSMamba: Remote Sensing Image Classification with State Space Model
- arxiv url: http://arxiv.org/abs/2403.19654v1
- Date: Thu, 28 Mar 2024 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:04:56.079563
- Title: RSMamba: Remote Sensing Image Classification with State Space Model
- Title(参考訳): RSMamba:状態空間モデルを用いたリモートセンシング画像分類
- Authors: Keyan Chen, Bowen Chen, Chenyang Liu, Wenyuan Li, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
- 参考スコア(独自算出の注目度): 25.32283897448209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image classification forms the foundation of various understanding tasks, serving a crucial function in remote sensing image interpretation. The recent advancements of Convolutional Neural Networks (CNNs) and Transformers have markedly enhanced classification accuracy. Nonetheless, remote sensing scene classification remains a significant challenge, especially given the complexity and diversity of remote sensing scenarios and the variability of spatiotemporal resolutions. The capacity for whole-image understanding can provide more precise semantic cues for scene discrimination. In this paper, we introduce RSMamba, a novel architecture for remote sensing image classification. RSMamba is based on the State Space Model (SSM) and incorporates an efficient, hardware-aware design known as the Mamba. It integrates the advantages of both a global receptive field and linear modeling complexity. To overcome the limitation of the vanilla Mamba, which can only model causal sequences and is not adaptable to two-dimensional image data, we propose a dynamic multi-path activation mechanism to augment Mamba's capacity to model non-causal data. Notably, RSMamba maintains the inherent modeling mechanism of the vanilla Mamba, yet exhibits superior performance across multiple remote sensing image classification datasets. This indicates that RSMamba holds significant potential to function as the backbone of future visual foundation models. The code will be available at \url{https://github.com/KyanChen/RSMamba}.
- Abstract(参考訳): リモートセンシング画像分類は様々な理解タスクの基礎を形成し、リモートセンシング画像解釈において重要な役割を果たす。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーの最近の進歩により、分類精度が著しく向上した。
とはいえ、リモートセンシングシーンの分類は、特にリモートセンシングシナリオの複雑さと多様性と時空間分解能の変動性を考えると、大きな課題である。
全体像理解能力は、シーン識別のためのより正確な意味的手がかりを提供することができる。
本稿では,リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
これは、大域的受容場と線形モデリングの複雑さの両方の利点を統合する。
因果関係のみをモデル化でき、2次元画像データに適応できないバニラ・マンバの限界を克服するために,マンバの非因果関係をモデル化するための動的マルチパス活性化機構を提案する。
特に、RSMambaはバニラ・マンバの固有のモデリングメカニズムを維持しているが、複数のリモートセンシング画像分類データセットよりも優れた性能を示している。
このことは、RSMambaが将来の視覚基盤モデルのバックボーンとして機能する大きな可能性を秘めていることを示している。
コードは \url{https://github.com/KyanChen/RSMamba} で入手できる。
関連論文リスト
- FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation [7.922421805234563]
本稿では,この革新的な技術をリモートセンシングタスクに組み込むために,リモートセンシング画像セマンティックセマンティックセマンティフィケーションMamba (RS3Mamba) という新しいデュアルブランチネットワークを提案する。
RS3MambaはVSSブロックを使用して補助ブランチを構築し、畳み込みベースのメインブランチに追加のグローバル情報を提供する。
ISPRS VaihingenとLoveDA Urbanという2つの広く使われているデータセットの実験結果により、提案されたRS3Mambaの有効性と可能性を実証した。
論文 参考訳(メタデータ) (2024-04-03T04:59:28Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State
Space Models [58.39336492765728]
がん診断のゴールドスタンダードである病理診断は、TransformerとMIL(Multiple Case Learning)フレームワークを併用して、全スライド画像(WSI)を用いて、優れたパフォーマンスを実現している。
選択的構造化状態空間モデル(Mamba)とMILとの協調によるWSI分類のためのMamMILフレームワークを提案する。
具体的には、マンバが一方向一次元(一次元)シーケンスモデリングしか行えないという問題を解決するため、双方向状態空間モデルと2次元コンテキスト認識ブロックを革新的に導入する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation [21.1787366866505]
Mamba-UNetは,医療画像のセグメンテーションにおいてU-Netとマンバの能力を相乗化する新しいアーキテクチャである。
Mamba-UNetは純粋にVisual Mamba(VMamba)ベースのエンコーダデコーダ構造を採用しており、ネットワークのさまざまなスケールで空間情報を保存するためにスキップ接続を注入している。
論文 参考訳(メタデータ) (2024-02-07T18:33:04Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。