論文の概要: Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques
- arxiv url: http://arxiv.org/abs/2507.22791v1
- Date: Wed, 30 Jul 2025 15:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.307698
- Title: Modality-Aware Feature Matching: A Comprehensive Review of Single- and Cross-Modality Techniques
- Title(参考訳): Modality-Aware Feature Matching: Single- and Cross-Modality Techniquesの概観
- Authors: Weide Liu, Wei Zhou, Jun Liu, Ping Hu, Jun Cheng, Jungong Han, Weisi Lin,
- Abstract要約: 特徴マッチングはコンピュータビジョンにおける基礎的な課題であり、画像検索、ステレオマッチング、3D再構成、SLAMなどのアプリケーションに必須である。
本調査は,モダリティに基づく特徴マッチングを包括的にレビューし,従来の手作り手法と現代のディープラーニングアプローチについて検討する。
- 参考スコア(独自算出の注目度): 91.26187560114381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature matching is a cornerstone task in computer vision, essential for applications such as image retrieval, stereo matching, 3D reconstruction, and SLAM. This survey comprehensively reviews modality-based feature matching, exploring traditional handcrafted methods and emphasizing contemporary deep learning approaches across various modalities, including RGB images, depth images, 3D point clouds, LiDAR scans, medical images, and vision-language interactions. Traditional methods, leveraging detectors like Harris corners and descriptors such as SIFT and ORB, demonstrate robustness under moderate intra-modality variations but struggle with significant modality gaps. Contemporary deep learning-based methods, exemplified by detector-free strategies like CNN-based SuperPoint and transformer-based LoFTR, substantially improve robustness and adaptability across modalities. We highlight modality-aware advancements, such as geometric and depth-specific descriptors for depth images, sparse and dense learning methods for 3D point clouds, attention-enhanced neural networks for LiDAR scans, and specialized solutions like the MIND descriptor for complex medical image matching. Cross-modal applications, particularly in medical image registration and vision-language tasks, underscore the evolution of feature matching to handle increasingly diverse data interactions.
- Abstract(参考訳): 特徴マッチングはコンピュータビジョンにおける基礎的な課題であり、画像検索、ステレオマッチング、3D再構成、SLAMなどのアプリケーションに必須である。
本調査では,RGB画像,深度画像,3Dポイント雲,LiDARスキャン,医用画像,視覚言語インタラクションなど,さまざまなモダリティを網羅して,モダリティに基づく特徴マッチングを総合的にレビューし,従来の手作り手法を探求し,同時代の深層学習アプローチを強調した。
従来の方法では、ハリス角やSIFTやORBのような記述子などの検出器を利用するが、中程度のモダリティ内変動の下では頑丈さを示すが、かなりのモダリティギャップに苦しむ。
現代のディープラーニングベースの手法は、CNNベースのSuperPointやトランスフォーマーベースのLoFTRのようなディテクターフリー戦略によって実証され、モダリティ間の堅牢性と適応性を大幅に改善している。
深度画像のための幾何学的・深度特化記述子,3次元点雲のための疎密学習法,LiDARスキャンのための注目強化ニューラルネットワーク,複雑な医用画像マッチングのためのMDD記述子のような特殊なソリューションなど,モダリティ対応の進歩を強調した。
クロスモーダルな応用、特に医用画像登録や視覚言語タスクでは、多様なデータインタラクションを扱うための特徴マッチングの進化が強調されている。
関連論文リスト
- MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。
本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。
我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文 参考訳(メタデータ) (2025-01-13T18:37:36Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - CABLD: Contrast-Agnostic Brain Landmark Detection with Consistency-Based Regularization [2.423045468361048]
CABLDは、ラベルなしスキャンにおける3次元脳ランドマーク検出のための、新しい自己教師型ディープラーニングフレームワークである。
提案手法はMRIによる脳のランドマーク検出を複雑に行うことで実証する。
我々のフレームワークは、解剖学的ランドマーク検出のための堅牢で正確なソリューションを提供し、広範囲の注釈付きデータセットの必要性を減らす。
論文 参考訳(メタデータ) (2024-11-26T19:56:29Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Generalized Iris Presentation Attack Detection Algorithm under
Cross-Database Settings [63.90855798947425]
プレゼンテーションアタックは、バイオメトリックなモダリティの大部分に大きな課題をもたらす。
本稿では,汎用的な深層学習に基づくプレゼンテーション攻撃検出ネットワークであるMVANetを提案する。
これはハイブリッドアルゴリズムの単純さと成功、あるいは複数の検出ネットワークの融合にインスパイアされている。
論文 参考訳(メタデータ) (2020-10-25T22:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。