論文の概要: CM-Bench: A Comprehensive Cross-Modal Feature Matching Benchmark Bridging Visible and Infrared Images
- arxiv url: http://arxiv.org/abs/2603.12690v1
- Date: Fri, 13 Mar 2026 06:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.935491
- Title: CM-Bench: A Comprehensive Cross-Modal Feature Matching Benchmark Bridging Visible and Infrared Images
- Title(参考訳): CM-Bench: 可視画像と赤外線画像のベンチマークマッチングによる総合的なクロスモーダルな特徴マッチング
- Authors: Liangzheng Sun, Mengfan He, Xingyu Shao, Binbin Li, Zhiqiang Yan, Chunyu Li, Ziyang Meng, Fei Xing,
- Abstract要約: 我々は、さまざまなクロスモーダルデータセットにまたがる30の機能マッチングアルゴリズムを含む総合的なクロスモーダル特徴マッチングベンチマークであるCM-Benchを紹介する。
手法は, ホログラフィー推定, 相対ポーズ推定, 特徴マッチングに基づくジオローカライゼーションなど, 様々なタスクによって評価される。
また,実地局所化評価のために,手動でアノテートされた接地トラス対応を持つ新しい赤外サテライトクロスモーダルデータセットを提案する。
- 参考スコア(独自算出の注目度): 4.849445100006921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared-visible (IR-VIS) feature matching plays an essential role in cross-modality visual localization, navigation and perception. Along with the rapid development of deep learning techniques, a number of representative image matching methods have been proposed. However, crossmodal feature matching is still a challenging task due to the significant appearance difference. A significant gap for cross-modal feature matching research lies in the absence of standardized benchmarks and metrics for evaluations. In this paper, we introduce a comprehensive cross-modal feature matching benchmark, CM-Bench, which encompasses 30 feature matching algorithms across diverse cross-modal datasets. Specifically, state-of-the-art traditional and deep learning-based methods are first summarized and categorized into sparse, semidense, and dense methods. These methods are evaluated by different tasks including homography estimation, relative pose estimation, and feature-matching-based geo-localization. In addition, we introduce a classification-network-based adaptive preprocessing front-end that automatically selects suitable enhancement strategies before matching. We also present a novel infrared-satellite cross-modal dataset with manually annotated ground-truth correspondences for practical geo-localization evaluation. The dataset and resource will be available at: https://github.com/SLZ98/CM-Bench.
- Abstract(参考訳): 赤外可視(IR-VIS)特徴マッチングは、モダリティ間の視覚的位置決め、ナビゲーション、知覚において重要な役割を担っている。
深層学習技術の急速な発展とともに,多くの代表的な画像マッチング手法が提案されている。
しかし、大きな外観の違いのため、クロスモーダルな特徴マッチングは依然として難しい課題である。
クロスモーダルな特徴マッチング研究の大きなギャップは、標準化されたベンチマークと評価のためのメトリクスがないことである。
本稿では,多種多様なクロスモーダルデータセットにまたがる30の特徴マッチングアルゴリズムを含む,総合的なクロスモーダル特徴マッチングベンチマークCM-Benchを紹介する。
具体的には、最先端の伝統と深層学習に基づく手法をまず要約し、スパース法、セミデンス法、密集法に分類する。
これらの手法は、ホモグラフィー推定、相対ポーズ推定、特徴マッチングに基づくジオローカライゼーションなど、様々なタスクによって評価される。
さらに,分類ネットワークに基づく適応型前処理フロントエンドを導入し,マッチング前に適切な拡張戦略を自動的に選択する。
また,実地局所化評価のために,手動でアノテートされた接地トラス対応を持つ新しい赤外サテライトクロスモーダルデータセットを提案する。
データセットとリソースは、https://github.com/SLZ98/CM-Bench.comで提供される。
関連論文リスト
- Semantic-Enhanced Cross-Modal Place Recognition for Robust Robot Localization [1.2031796234206136]
我々はSemantic-Enhanced Cross-Modal Place Recognition (SCM-PR)と呼ぶフレームワークを導入する。
SCM-PRは、RGB画像を利用した高レベルセマンティクスを組み合わせることで、LiDARマップのロバストなローカライゼーションを実現する。
KITTIとKITTI-360データセットに関する実験研究は、SCM-PRが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-16T19:17:54Z) - A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations [15.703292627605304]
コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。
スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。
実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2025-08-15T01:13:50Z) - GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval [13.928213494843744]
クロスモーダル検索は、限られたトレーニングサンプルを用いたクロスモーダル表現の学習に焦点を当てている。
既存の手法では、数発のクロスモーダルデータのマルチピーク分布を適切にモデル化できない場合が多い。
画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントのための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Representation-Centric Survey of Skeletal Action Recognition and the ANUBIS Benchmark [43.00059447663327]
3Dスケルトンに基づく人間の行動認識は、従来のRGBや深さに基づくアプローチの強力な代替手段として登場した。
目覚ましい進歩にもかかわらず、現在の研究は様々な入力表現で断片化されている。
ANUBISは、既存のベンチマークで重要なギャップに対処するために設計された、大規模で挑戦的なスケルトンアクションデータセットである。
論文 参考訳(メタデータ) (2022-05-04T14:03:43Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。