論文の概要: RegistrationMamba: A Mamba-based Registration Framework Integrating Multi-Expert Feature Learning for Cross-Modal Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2507.04397v1
- Date: Sun, 06 Jul 2025 13:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.159937
- Title: RegistrationMamba: A Mamba-based Registration Framework Integrating Multi-Expert Feature Learning for Cross-Modal Remote Sensing Images
- Title(参考訳): マルチエキスパート特徴学習を統合したマンバベースレジストレーションフレームワークRegistrationMamba
- Authors: Wei Wang, Dou Quan, Chonghua Lv, Shuang Wang, Ning Huyan, Yunan Li, Licheng Jiao,
- Abstract要約: クロスモーダルリモートセンシング画像(CRSI)の登録は、マルチモーダル画像アプリケーションにとって重要である。
既存の方法は、主に畳み込みニューラルネットワーク(CNN)またはトランスフォーマーアーキテクチャを採用して、登録のための識別的特徴を抽出する。
本稿では,マルチエキスパート機能学習を統合した状態空間モデル(SSM)に基づく新しいMambaアーキテクチャであるRegistrationMambaを提案する。
- 参考スコア(独自算出の注目度): 39.5745769925092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal remote sensing image (CRSI) registration is critical for multi-modal image applications. However, CRSI mainly faces two challenges: significant nonlinear radiometric variations between cross-modal images and limited textures hindering the discriminative information extraction. Existing methods mainly adopt convolutional neural networks (CNNs) or Transformer architectures to extract discriminative features for registration. However, CNNs with the local receptive field fail to capture global contextual features, and Transformers have high computational complexity and restrict their application to high-resolution CRSI. To solve these issues, this paper proposes RegistrationMamba, a novel Mamba architecture based on state space models (SSMs) integrating multi-expert feature learning for improving the accuracy of CRSI registration. Specifically, RegistrationMamba employs a multi-directional cross-scanning strategy to capture global contextual relationships with linear complexity. To enhance the performance of RegistrationMamba under texture-limited scenarios, we propose a multi-expert feature learning (MEFL) strategy to capture features from various augmented image variants through multiple feature experts. MEFL leverages a learnable soft router to dynamically fuse the features from multiple experts, thereby enriching feature representations and improving registration performance. Notably, MEFL can be seamlessly integrated into various frameworks, substantially boosting registration performance. Additionally, RegistrationMamba integrates a multi-level feature aggregation (MFA) module to extract fine-grained local information and enable effective interaction between global and local features. Extensive experiments on CRSI with varying image resolutions have demonstrated that RegistrationMamba has superior performance and robustness compared to state-of-the-art methods.
- Abstract(参考訳): クロスモーダルリモートセンシング画像(CRSI)の登録は、マルチモーダル画像アプリケーションにとって重要である。
しかし、CRSIは主に2つの課題に直面している: クロスモーダル画像と識別情報の抽出を妨げる限られたテクスチャの間の顕著な非線形ラジオメトリックのばらつき。
既存の方法は、主に畳み込みニューラルネットワーク(CNN)またはトランスフォーマーアーキテクチャを採用して、登録のための識別的特徴を抽出する。
しかし、局所受容場を持つCNNは、グローバルな文脈の特徴を捉えることができず、トランスフォーマーは高い計算複雑性を持ち、その応用を高解像度のCRSIに制限する。
そこで本稿では,状態空間モデル(SSM)に基づく新しいMambaアーキテクチャであるRegistrationMambaを提案する。
具体的には、RegistrationMambaは、多方向のクロススキャン戦略を使用して、線形複雑性を伴うグローバルなコンテキスト関係をキャプチャする。
テクスチャ限定シナリオ下でのRegistrationMambaの性能向上を目的として,複数機能専門家による多機能画像から特徴を抽出するマルチエキスパート機能学習(MEFL)戦略を提案する。
MEFLは学習可能なソフトルータを利用して複数の専門家の機能を動的に融合し、特徴表現を強化し、登録性能を向上させる。
特に、MEFLは様々なフレームワークにシームレスに統合することができ、登録性能を大幅に向上させる。
さらに、RegistrationMambaはマルチレベル機能集約(MFA)モジュールを統合して、きめ細かいローカル情報を抽出し、グローバル機能とローカル機能との効果的な相互作用を可能にする。
画像解像度の異なるCRSIに関する大規模な実験により、RegistrationMambaは最先端の手法よりも優れた性能と堅牢性を示している。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Harnessing Massive Satellite Imagery with Efficient Masked Image Modeling [20.479011464156113]
Masked Image Modeling (MIM)は、リモートセンシング(RS)における基礎的な視覚モデル構築に欠かせない方法となっている。
本稿では,大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする,RSモデルの事前学習パイプラインを提案する。
本研究では,セマンティックにリッチなパッチトークンを動的にエンコードし,再構成する事前学習手法であるSelectiveMAEを提案する。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。