論文の概要: MapGlue: Multimodal Remote Sensing Image Matching
- arxiv url: http://arxiv.org/abs/2503.16185v1
- Date: Thu, 20 Mar 2025 14:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:52.090442
- Title: MapGlue: Multimodal Remote Sensing Image Matching
- Title(参考訳): MapGlue:マルチモーダルリモートセンシング画像マッチング
- Authors: Peihao Wu, Yongxiang Yao, Wenfei Zhang, Dong Wei, Yi Wan, Yansheng Li, Yongjun Zhang,
- Abstract要約: マルチモーダルリモートセンシング画像(MRSI)マッチングは、クロスモーダル融合、ローカライゼーション、オブジェクト検出において重要である。
既存のユニモーダルデータセットにはスケールと多様性がなく、ディープラーニングソリューションに制限がある。
本稿では,汎用MRSIマッチングフレームワークであるMapGlueと,これらのギャップに対処する大規模マルチモーダルデータセットであるMapDataを提案する。
- 参考スコア(独自算出の注目度): 12.376931699274062
- License:
- Abstract: Multimodal remote sensing image (MRSI) matching is pivotal for cross-modal fusion, localization, and object detection, but it faces severe challenges due to geometric, radiometric, and viewpoint discrepancies across imaging modalities. Existing unimodal datasets lack scale and diversity, limiting deep learning solutions. This paper proposes MapGlue, a universal MRSI matching framework, and MapData, a large-scale multimodal dataset addressing these gaps. Our contributions are twofold. MapData, a globally diverse dataset spanning 233 sampling points, offers original images (7,000x5,000 to 20,000x15,000 pixels). After rigorous cleaning, it provides 121,781 aligned electronic map-visible image pairs (512x512 pixels) with hybrid manual-automated ground truth, addressing the scarcity of scalable multimodal benchmarks. MapGlue integrates semantic context with a dual graph-guided mechanism to extract cross-modal invariant features. This structure enables global-to-local interaction, enhancing descriptor robustness against modality-specific distortions. Extensive evaluations on MapData and five public datasets demonstrate MapGlue's superiority in matching accuracy under complex conditions, outperforming state-of-the-art methods. Notably, MapGlue generalizes effectively to unseen modalities without retraining, highlighting its adaptability. This work addresses longstanding challenges in MRSI matching by combining scalable dataset construction with a robust, semantics-driven framework. Furthermore, MapGlue shows strong generalization capabilities on other modality matching tasks for which it was not specifically trained. The dataset and code are available at https://github.com/PeihaoWu/MapGlue.
- Abstract(参考訳): マルチモーダルリモートセンシング画像(MRSI)マッチングは, 画像の相互融合, 局所化, 物体検出において重要であるが, 幾何学的, ラジオメトリー的, 視点的不一致により, 深刻な課題に直面している。
既存のユニモーダルデータセットにはスケールと多様性がなく、ディープラーニングソリューションに制限がある。
本稿では,汎用MRSIマッチングフレームワークであるMapGlueと,これらのギャップに対処する大規模マルチモーダルデータセットであるMapDataを提案する。
私たちの貢献は2倍です。
MapDataは233のサンプリングポイントにまたがるグローバルな多様なデータセットで、オリジナルのイメージ(7,000x5000から20,000x15,000ピクセル)を提供する。
厳密なクリーニングの後、121,781個の電子地図可視画像対(512x512ピクセル)に、手動で手動で自動化された地上真実のハイブリッドを提供し、スケーラブルなマルチモーダルベンチマークの不足に対処する。
MapGlueは、セマンティックコンテキストとデュアルグラフ誘導機構を統合し、クロスモーダル不変な特徴を抽出する。
この構造は、グローバルとローカルの相互作用を可能にし、モダリティ固有の歪みに対する記述的堅牢性を高める。
MapDataと5つの公開データセットに対する大規模な評価は、複雑な条件下でのマッチング精度においてMapGlueの優位性を示し、最先端の手法よりも優れています。
注目すべきは、MapGlueが再トレーニングすることなく、効果的にモダリティを非表示に一般化し、適応性を強調していることだ。
この作業は、スケーラブルなデータセット構築と堅牢でセマンティクス駆動のフレームワークを組み合わせることで、MRSIマッチングにおける長年にわたる課題に対処する。
さらに、MapGlueは、特に訓練されていない他のモダリティマッチングタスクに対して、強力な一般化能力を示す。
データセットとコードはhttps://github.com/PeihaoWu/MapGlue.comで公開されている。
関連論文リスト
- MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification [5.863175733097434]
特徴レベルでの非対称性の問題に対処するため,非対称セマンティックアライニングネットワーク (ASANet) という新しいアーキテクチャを提案する。
提案するASANetは,2つのモード間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。
我々は、新しいRGB-SARマルチモーダルデータセットを構築し、ASANetは1.21%から17.69%の改善で他の主流メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-03T00:03:33Z) - Maps from Motion (MfM): Generating 2D Semantic Maps from Sparse Multi-view Images [17.992488467380923]
OpenStreetMapは、1100万人の登録ユーザーが手動でGPSの位置情報に157億以上のエントリをアノテートした結果である。
同時に、手動のアノテーションにはエラーが含まれ、更新が遅く、マップの精度が制限される。
動きからのマップ (MfM) は、非校正された多視点画像のコレクションから直接意味オブジェクトの2Dマップを計算することにより、そのような時間を要する地図作成手順を自動化するためのステップである。
論文 参考訳(メタデータ) (2024-11-19T16:27:31Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Unpaired Image Super-Resolution with Optimal Transport Maps [128.1189695209663]
実世界の画像超解像(SR)タスクは、しばしば、教師付き技術の適用を制限するペアデータセットを持っていない。
本稿では,非バイアスのOTマップを知覚輸送コストで学習する未ペアSRのアルゴリズムを提案する。
我々のアルゴリズムは、大規模無人AIM-19データセット上で、最先端のパフォーマンスをほぼ提供する。
論文 参考訳(メタデータ) (2022-02-02T16:21:20Z) - Generating Multi-scale Maps from Remote Sensing Images via Series
Generative Adversarial Networks [12.34648824166359]
マルチスケール rs2map 変換のためのジェネレータのシリーズ戦略を開発する。
高分解能RSIをrs2マップモデルに入力し、大規模マップを出力する。
実験により,シリーズ戦略による高品質なマルチスケールマップ生成が示された。
論文 参考訳(メタデータ) (2021-03-31T08:58:37Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。