論文の概要: CSFMamba: Cross State Fusion Mamba Operator for Multimodal Remote Sensing Image Classification
- arxiv url: http://arxiv.org/abs/2509.00677v1
- Date: Sun, 31 Aug 2025 03:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.336592
- Title: CSFMamba: Cross State Fusion Mamba Operator for Multimodal Remote Sensing Image Classification
- Title(参考訳): CSFMamba:マルチモーダルリモートセンシング画像分類のためのクロスステートフュージョンマンバ演算子
- Authors: Qingyu Wang, Xue Jiang, Guozheng Xu,
- Abstract要約: 我々はCross State Fusion Mamba (Camba) Networkを提案する。
具体的には、まず、マンバ構造のニーズに応じて、リモートセンシング画像情報の事前処理モジュールを設計する。
第二に、Mamba演算子に基づくクロスステートモジュールは、2つのモードの特徴を完全に融合するように創造的に設計されている。
- 参考スコア(独自算出の注目度): 12.959829835589453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion has made great progress in the field of remote sensing image classification due to its ability to exploit the complementary spatial-spectral information. Deep learning methods such as CNN and Transformer have been widely used in these domains. State Space Models recently highlighted that prior methods suffer from quadratic computational complexity. As a result, modeling longer-range dependencies of spatial-spectral features imposes an overwhelming burden on the network. Mamba solves this problem by incorporating time-varying parameters into ordinary SSM and performing hardware optimization, but it cannot perform feature fusion directly. In order to make full use of Mamba's low computational burden and explore the potential of internal structure in multimodal feature fusion, we propose Cross State Fusion Mamba (CSFMamba) Network. Specifically, we first design the preprocessing module of remote sensing image information for the needs of Mamba structure, and combine it with CNN to extract multi-layer features. Secondly, a cross-state module based on Mamba operator is creatively designed to fully fuse the feature of the two modalities. The advantages of Mamba and CNN are combined by designing a more powerful backbone. We capture the fusion relationship between HSI and LiDAR modalities with stronger full-image understanding. The experimental results on two datasets of MUUFL and Houston2018 show that the proposed method outperforms the experimental results of Transformer under the premise of reducing the network training burden.
- Abstract(参考訳): マルチモーダル融合は, 空間スペクトル情報の相補的利用により, リモートセンシング画像分類の分野で大きな進歩を遂げている。
CNNやTransformerといったディープラーニングの手法は、これらの領域で広く使われている。
State Space Modelsは最近、以前の手法が2次計算の複雑さに悩まされていることを強調した。
その結果、空間スペクトルの特徴の長距離依存性をモデル化することは、ネットワークに圧倒的な負担を課すことになる。
Mambaはこの問題を解決するために、時間変化パラメータを通常のSSMに組み込んでハードウェア最適化を行うが、直接機能融合を行うことはできない。
マンバの低計算負荷をフル活用し,マルチモーダル機能融合における内部構造の可能性を探るため,クロスステートフュージョン・マンバ(CSFMamba)ネットワークを提案する。
具体的には、まず、マンバ構造のニーズに応じて、リモートセンシング画像情報の事前処理モジュールを設計し、CNNと組み合わせて多層的特徴を抽出する。
第二に、Mamba演算子に基づくクロスステートモジュールは、2つのモードの特徴を完全に融合するように創造的に設計されている。
MambaとCNNの利点は、より強力なバックボーンを設計することで組み合わせられる。
我々は,HSIとLiDARの融合関係を,より強力なフルイメージ理解で捉えた。
MUUFLとHouston2018の2つのデータセットに対する実験結果から,提案手法はネットワークトレーニングの負担軽減を前提として,Transformerの実験結果より優れていることが示された。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [19.761723108363796]
FusionMamba はコンピュータビジョンタスクにおいて CNN や Vision Transformers (ViT) が直面する課題を克服することを目的としている。
このフレームワークは動的畳み込みとチャネルアテンション機構を統合することで、視覚的状態空間モデルMambaを改善している。
実験により、FusionMambaは様々なマルチモーダル画像融合タスクや下流実験で最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - FusionMamba: Efficient Remote Sensing Image Fusion with State Space Model [35.57157248152558]
現在のディープラーニング(DL)手法は、典型的には、特徴抽出と情報統合のために畳み込みニューラルネットワーク(CNN)またはトランスフォーマーを使用する。
本研究では,効率的なリモートセンシング画像融合法であるFusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。