論文の概要: Cross-Modality Feature Fusion Based on Structured State Space Duality for Multimodal Image Registration Network
- arxiv url: http://arxiv.org/abs/2606.03341v1
- Date: Tue, 02 Jun 2026 08:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.730957
- Title: Cross-Modality Feature Fusion Based on Structured State Space Duality for Multimodal Image Registration Network
- Title(参考訳): マルチモーダル画像登録ネットワークのための構造化状態空間双対に基づくクロスモーダル特徴融合
- Authors: Zhikang Li, Yan Wu, Xin Hu, Yi Dai, Ming Li,
- Abstract要約: 本稿では,RegNetMamba-2という,マルチモーダル画像登録のための新しいアルゴリズムを提案する。
本アルゴリズムでは, 局所的・大域的構造的特徴を効果的に抽出するために, 構造化状態空間双対(SSD)を粗大かつ微細なマッチングプロセスに組み込む。
- 参考スコア(独自算出の注目度): 11.534883621399546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-modal image registration, the primary challenge lies in shared structural information extraction. Compared to Transformers, Structured State Space Duality (SSD) offers greater global structural feature extraction with higher efficiency during training and inference. Inspired by these advantages, we propose a novel algorithm for multi-modal image registration, named RegNetMamba-2. Our algorithm incorporates SSD into coarse-to-fine matching process to extract local and global structural features effectively. Firstly, SSD is applied in three different scales for multi-modal feature extraction in our network. To strengthen local representation, we pay more attention on foreground edge and structural information by feature scaling function of SSD. Secondly, for shared feature extraction of input images and multi-modal feature fusion in all scales, we propose cross-modality feature fusion model based on SSD, consisting of Cross-Modality feature Interaction (CMI) module and Multi-Scale feature Fusion (MSF) module. CMI module is designed for cross-modality feature extraction of each scale by SSD in cross form. MSF module is designed to employ a progressive upward fusion in feature-level to obtain fine features, consisting of multi-modal features in all scales. Following coarse-to-fine, the features in 1/8 scale from CMI and 1/2 scale from MSF are collected to calculate matching probability scores. Then we respectively establish matching process by correspondences of pixel-wise. Extensive experiments demonstrate that comparing with state-of-the-art deep-learning based algorithms, RegNetMamba-2 has achieved good effects in both performance and efficiency for multi-modal image registration on the following datasets: VIS-SAR (OSDataset), VIS-IR (LGHD/RoadSence) and VIS-NIR (RGB-NIR sense).
- Abstract(参考訳): マルチモーダル画像登録において、主な課題は共有構造情報抽出である。
Transformersと比較すると、Structured State Space Duality(SSD)は、トレーニングと推論の間、より効率的なグローバルな構造的特徴抽出を提供する。
これらの利点に触発されて、RegNetMamba-2というマルチモーダル画像登録のための新しいアルゴリズムを提案する。
提案アルゴリズムは, SSDを粗粒度マッチングプロセスに組み込んで, 局所的・大域的構造的特徴を効果的に抽出する。
まず,ネットワークにおけるマルチモーダル特徴抽出のために,SSDを3つの異なるスケールで適用する。
局所表現を強化するため,SSDの機能スケーリング機能により,前景のエッジや構造情報に注意を払っている。
第2に、入力画像の共有特徴抽出と全スケールでのマルチモーダル特徴融合について、CMIモジュールとMSFモジュールからなるSSDに基づくクロスモーダル特徴融合モデルを提案する。
CMIモジュールは、SSDによる各スケールのクロスモーダル特徴抽出のために設計されている。
MSFモジュールは、全てのスケールでマルチモーダルな特徴からなる優れた特徴を得るために、機能レベルで段階的に上向きの融合を利用するように設計されている。
粗大化の後、CMIから1/8スケール、MSFから1/2スケールの特徴を収集し、一致した確率スコアを算出する。
次に,画素単位の対応によってマッチングプロセスを確立する。
大規模な実験により、RegNetMamba-2は、最先端のディープラーニングベースのアルゴリズムと比較して、以下のデータセットに対して、マルチモーダル画像登録の性能と効率の両方に優れた効果が得られた。
関連論文リスト
- DIFF-MF: A Difference-Driven Channel-Spatial State Space Model for Multi-Modal Image Fusion [51.07069814578009]
マルチモーダル画像融合は、複数のソース画像から補完的な情報を統合して、リッチなコンテンツで高品質な融合画像を生成することを目的としている。
マルチモーダル画像融合のための差動駆動型チャネル空間空間モデルDIFF-MFを提案する。
本手法は,視覚的品質と定量的評価の両方において,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2026-01-09T05:26:54Z) - CSFMamba: Cross State Fusion Mamba Operator for Multimodal Remote Sensing Image Classification [12.959829835589453]
我々はCross State Fusion Mamba (Camba) Networkを提案する。
具体的には、まず、マンバ構造のニーズに応じて、リモートセンシング画像情報の事前処理モジュールを設計する。
第二に、Mamba演算子に基づくクロスステートモジュールは、2つのモードの特徴を完全に融合するように創造的に設計されている。
論文 参考訳(メタデータ) (2025-08-31T03:08:34Z) - RegistrationMamba: A Mamba-based Registration Framework Integrating Multi-Expert Feature Learning for Cross-Modal Remote Sensing Images [39.5745769925092]
クロスモーダルリモートセンシング画像(CRSI)の登録は、マルチモーダル画像アプリケーションにとって重要である。
既存の方法は、主に畳み込みニューラルネットワーク(CNN)またはトランスフォーマーアーキテクチャを採用して、登録のための識別的特徴を抽出する。
本稿では,マルチエキスパート機能学習を統合した状態空間モデル(SSM)に基づく新しいMambaアーキテクチャであるRegistrationMambaを提案する。
論文 参考訳(メタデータ) (2025-07-06T13:59:51Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification [5.863175733097434]
特徴レベルでの非対称性の問題に対処するため,非対称セマンティックアライニングネットワーク (ASANet) という新しいアーキテクチャを提案する。
提案するASANetは,2つのモード間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。
我々は、新しいRGB-SARマルチモーダルデータセットを構築し、ASANetは1.21%から17.69%の改善で他の主流メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-03T00:03:33Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。