論文の概要: ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model
- arxiv url: http://arxiv.org/abs/2404.03425v2
- Date: Thu, 11 Apr 2024 10:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 17:56:32.842633
- Title: ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model
- Title(参考訳): ChangeMamba:時空間空間モデルによるリモートセンシング変化検出
- Authors: Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya,
- Abstract要約: 状態空間モデルに基づくMambaアーキテクチャは、一連の自然言語処理タスクにおいて顕著なパフォーマンスを示している。
本稿では,リモートセンシングCDタスクにおけるMambaアーキテクチャの可能性について検討する。
- 参考スコア(独自算出の注目度): 18.063680125378347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have inherent shortcomings. Recently, the Mamba architecture, based on state space models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing CD tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge Visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features, thereby obtaining accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex training strategies or tricks, fully demonstrating the potential of the Mamba architecture in CD tasks. Specifically, we obtained 83.11%, 88.39% and 94.19% F1 scores on the three BCD datasets SYSU, LEVIR-CD+, and WHU-CD; on the SCD dataset SECOND, we obtained 24.11% SeK; and on the BDA dataset xBD, we obtained 81.41% overall F1 score. Further experiments show that our architecture is quite robust to degraded data. The source code will be available in https://github.com/ChenHongruixuan/MambaCD
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシング変化検出(CD)の分野で目覚ましい進歩を遂げた。
しかし、両方のアーキテクチャには固有の欠点がある。
近年、状態空間モデルに基づくMambaアーキテクチャは、上記の2つのアーキテクチャの欠点を効果的に補うことができる一連の自然言語処理タスクにおいて、顕著な性能を示している。
本稿では,リモートセンシングCDタスクにおけるMambaアーキテクチャの可能性について検討する。
我々は,2値変化検出 (BCD), 意味変化検出 (SCD), 建物損傷評価 (BDA) に対応するフレームワークであるMambaBCD, MambaSCD, MambaBDAを調整した。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
3つのアーキテクチャで利用可能な変更デコーダについて,Mambaアーキテクチャと自然に結合可能な3つの時空間関係モデリング機構を提案し,その特性をフル活用して複数時空間特徴の時空間相互作用を実現し,正確な変更情報を得る。
5つのベンチマークデータセットにおいて、提案するフレームワークは、複雑なトレーニング戦略やトリックを使わずに、現在のCNNおよびTransformerベースのアプローチより優れており、CDタスクにおけるMambaアーキテクチャの可能性を完全に実証している。
具体的には、3つのBCDデータセットSYSU, LEVIR-CD+, WHU-CDに対して83.11%, 88.39%, 94.19%のF1スコアを取得し, SCDデータセットSECONDでは24.11%のSeK, BDAデータセットxBDでは81.41%の総合F1スコアを得た。
さらなる実験は、アーキテクチャが劣化したデータに対して非常に堅牢であることを示している。
ソースコードはhttps://github.com/ChenHongruixuan/MambaCDで入手できる。
関連論文リスト
- A Survey on Mamba Architecture for Vision Applications [7.216568558372857]
Mambaアーキテクチャは、ビジュアルタスクにおけるスケーラビリティの課題に対処する。
Vision MambaとVideoMambaは双方向走査、選択メカニズム、時間処理を導入し、画像とビデオの理解を高めている。
これらの進歩は、マンバをコンピュータビジョンの研究と応用における有望なアーキテクチャとして位置づけている。
論文 参考訳(メタデータ) (2025-02-11T00:59:30Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - OccMamba: Semantic Occupancy Prediction with State Space Models [16.646162677831985]
我々はOccMambaと呼ばれる意味的占有予測のための最初のMambaベースのネットワークを提示する。
単純で効果的な3D-to-1Dリオーダー操作,すなわち高さ優先の2Dヒルベルト展開を提案する。
OccMambaは、3つの一般的な占有予測ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-19T10:07:00Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - CDMamba: Remote Sensing Image Change Detection with Mamba [30.387208446303944]
我々はCDMambaと呼ばれるモデルを提案し、CDタスクを扱うためのグローバル機能とローカル機能とを効果的に組み合わせている。
具体的には,Mambaのグローバルな特徴抽出と畳み込みによる局所的詳細化を実現するために,Scaled Residual ConvMambaブロックを提案する。
論文 参考訳(メタデータ) (2024-06-06T16:04:30Z) - RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation [7.922421805234563]
本稿では,この革新的な技術をリモートセンシングタスクに組み込むために,リモートセンシング画像セマンティックセマンティックセマンティフィケーションMamba (RS3Mamba) という新しいデュアルブランチネットワークを提案する。
RS3MambaはVSSブロックを使用して補助ブランチを構築し、畳み込みベースのメインブランチに追加のグローバル情報を提供する。
ISPRS VaihingenとLoveDA Urbanという2つの広く使われているデータセットの実験結果により、提案されたRS3Mambaの有効性と可能性を実証した。
論文 参考訳(メタデータ) (2024-04-03T04:59:28Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。