論文の概要: A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification
- arxiv url: http://arxiv.org/abs/2504.16665v1
- Date: Wed, 23 Apr 2025 12:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:28:53.688401
- Title: A Diff-Attention Aware State Space Fusion Model for Remote Sensing Classification
- Title(参考訳): リモートセンシング分類のためのDiff-Attention Aware State Space Fusion Model
- Authors: Wenping Ma, Boyou Xue, Mengru Ma, Chuang Chen, Hekai Zhang, Hao Zhu,
- Abstract要約: マルチスペクトル (MS) とパンクロマティック (PAN) の画像は同じ陸面を描いている。
これらの類似した情報とそれぞれの利点を分離するために、融合段階における特徴冗長性を減少させる。
本稿では,マルチモーダルリモートセンシング画像分類のための拡散注意状態空間融合モデル(DAS2F-Model)を提案する。
- 参考スコア(独自算出の注目度): 5.381099682416992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multispectral (MS) and panchromatic (PAN) images describe the same land surface, so these images not only have their own advantages, but also have a lot of similar information. In order to separate these similar information and their respective advantages, reduce the feature redundancy in the fusion stage. This paper introduces a diff-attention aware state space fusion model (DAS2F-Model) for multimodal remote sensing image classification. Based on the selective state space model, a cross-modal diff-attention module (CMDA-Module) is designed to extract and separate the common features and their respective dominant features of MS and PAN images. Among this, space preserving visual mamba (SPVM) retains image spatial features and captures local features by optimizing visual mamba's input reasonably. Considering that features in the fusion stage will have large semantic differences after feature separation and simple fusion operations struggle to effectively integrate these significantly different features, an attention-aware linear fusion module (AALF-Module) is proposed. It performs pixel-wise linear fusion by calculating influence coefficients. This mechanism can fuse features with large semantic differences while keeping the feature size unchanged. Empirical evaluations indicate that the presented method achieves better results than alternative approaches. The relevant code can be found at:https://github.com/AVKSKVL/DAS-F-Model
- Abstract(参考訳): マルチスペクトル (MS) とパンクロマティック (PAN) の画像は同じ陸地表面を描いているため、これらの画像は独自の利点を持つだけでなく、多くの類似した情報を持っている。
これらの類似した情報とそれぞれの利点を分離するために、融合段階における特徴冗長性を減少させる。
本稿では,マルチモーダルリモートセンシング画像分類のための拡散注意状態空間融合モデル(DAS2F-Model)を提案する。
選択状態空間モデルに基づいて,MSおよびPAN画像の共通特徴とそれらの支配的特徴を抽出・分離するクロスモーダルディファクトアテンションモジュール (CMDA-Module) を設計した。
このうち、空間保存型視覚マンバ(SPVM)は画像空間の特徴を保持し、視覚マンバの入力を合理的に最適化することで局所的な特徴を捉える。
特徴分離と単純な融合操作がこれらの重要な特徴を効果的に統合するのに苦労した後、融合段階における特徴が大きな意味的差異を持つことを考慮し、注意を意識した線形核融合モジュール(AALF-Module)を提案する。
影響係数を計算して画素単位の線形融合を行う。
このメカニズムは、機能のサイズを変更せずに、大きなセマンティックな違いで機能をフューズすることができる。
実験により,提案手法は代替手法よりも優れた結果が得られることが示された。
関連するコードは、https://github.com/AVKSKVL/DAS-F-Modelを参照してください。
関連論文リスト
- BSAFusion: A Bidirectional Stepwise Feature Alignment Network for Unaligned Medical Image Fusion [11.306367018981678]
本稿では,両方向ステップワイド・フィーチャーアライメントとフュージョンという,不整合な医用画像融合法を提案する。
特徴アライメントの観点では、BSFA-Fは双方向の段階的なアライメント変形場予測戦略を採用している。
複数のデータセットにまたがる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-11T02:56:23Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement [39.06589186472675]
マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-10T07:57:05Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization [36.11674066519118]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。