論文の概要: Deep Learning Reforms Image Matching: A Survey and Outlook
- arxiv url: http://arxiv.org/abs/2506.04619v1
- Date: Thu, 05 Jun 2025 04:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.528493
- Title: Deep Learning Reforms Image Matching: A Survey and Outlook
- Title(参考訳): 画像マッチングの深層学習改革 : 調査と展望
- Authors: Shihua Zhang, Zizhuo Li, Kaining Zhang, Yifan Lu, Yuxin Deng, Linfeng Tang, Xingyu Jiang, Jiayi Ma,
- Abstract要約: 画像マッチングはコンピュータビジョンの基盤として機能し、幅広いアプリケーションを支える。
最近のディープラーニングの進歩は、堅牢性と正確性の両方を大きく向上させた。
この調査では、ディープラーニングが古典的な画像マッチングパイプラインを漸進的に変革した方法について、包括的にレビューすることで、ユニークな視点を採用している。
- 参考スコア(独自算出の注目度): 38.104899835728574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image matching, which establishes correspondences between two-view images to recover 3D structure and camera geometry, serves as a cornerstone in computer vision and underpins a wide range of applications, including visual localization, 3D reconstruction, and simultaneous localization and mapping (SLAM). Traditional pipelines composed of ``detector-descriptor, feature matcher, outlier filter, and geometric estimator'' falter in challenging scenarios. Recent deep-learning advances have significantly boosted both robustness and accuracy. This survey adopts a unique perspective by comprehensively reviewing how deep learning has incrementally transformed the classical image matching pipeline. Our taxonomy highly aligns with the traditional pipeline in two key aspects: i) the replacement of individual steps in the traditional pipeline with learnable alternatives, including learnable detector-descriptor, outlier filter, and geometric estimator; and ii) the merging of multiple steps into end-to-end learnable modules, encompassing middle-end sparse matcher, end-to-end semi-dense/dense matcher, and pose regressor. We first examine the design principles, advantages, and limitations of both aspects, and then benchmark representative methods on relative pose recovery, homography estimation, and visual localization tasks. Finally, we discuss open challenges and outline promising directions for future research. By systematically categorizing and evaluating deep learning-driven strategies, this survey offers a clear overview of the evolving image matching landscape and highlights key avenues for further innovation.
- Abstract(参考訳): 画像マッチングは、3D構造とカメラ形状を復元するための2視点画像の対応を確立し、コンピュータビジョンの基盤として機能し、視覚的位置付け、3D再構成、同時位置付けとマッピング(SLAM)など幅広い応用の基盤となる。
従来のパイプラインは、挑戦的なシナリオにおいて ``detector-descriptor, feature matcher, outlier filter, and geometry estimator'' falter で構成されていた。
最近のディープラーニングの進歩は、堅牢性と正確性の両方を大きく向上させた。
この調査では、ディープラーニングが古典的な画像マッチングパイプラインを漸進的に変革した方法について、包括的にレビューすることで、ユニークな視点を採用している。
私たちの分類学は、伝統的なパイプラインと2つの重要な側面で高度に一致しています。
一 従来のパイプラインにおける個々のステップを学習可能な代替品に置き換えること。
二 複数段を学習可能なモジュールにマージし、中端スパースマッチ、端端から端までの半ダンス/ダンスマッチ、後続のポーズを含む。
まず, 両面の設計原理, 利点, 限界について検討し, 相対的なポーズ回復, ホモグラフィー推定, 視覚的ローカライゼーションタスクのベンチマークを行う。
最後に,オープンな課題について論じ,今後の研究に向けた有望な方向性について概説する。
ディープラーニング駆動型戦略を体系的に分類し評価することにより、この調査は進化する画像マッチングの展望を明確化し、さらなるイノベーションのための重要な道のりを強調します。
関連論文リスト
- Multi-view dense image matching with similarity learning and geometry priors [0.0]
MV-DeepSimNetsは、マルチビュー類似性学習用に設計されたディープニューラルネットワークのスイートである。
我々のアプローチは、ピクセル関係を特徴づける前に、オンライン幾何学を取り入れている。
幾何的プレコンディショニング法は,多視点再構成のためのエピポーラ的特徴を効果的に適用する。
論文 参考訳(メタデータ) (2025-05-16T13:55:40Z) - Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks [9.388897214344572]
2次元画像からの3次元3次元再構成はコンピュータビジョンにおける活発な研究分野である。
伝統的にこの作業にはパラメトリック技術が用いられてきた。
近年の進歩は、学習ベースの方法にシフトしている。
論文 参考訳(メタデータ) (2024-08-29T11:16:34Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - VolumeFusion: Deep Depth Fusion for 3D Scene Reconstruction [71.83308989022635]
本稿では、ディープニューラルネットワークを用いた従来の2段階フレームワークの複製により、解釈可能性と結果の精度が向上することを提唱する。
ネットワークは,1)深部MVS技術を用いた局所深度マップの局所計算,2)深部マップと画像の特徴を融合させて単一のTSDFボリュームを構築する。
異なる視点から取得した画像間のマッチング性能を改善するために,PosedConvと呼ばれる回転不変な3D畳み込みカーネルを導入する。
論文 参考訳(メタデータ) (2021-08-19T11:33:58Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - Early Bird: Loop Closures from Opposing Viewpoints for
Perceptually-Aliased Indoor Environments [35.663671249819124]
本稿では,視点変化と知覚的エイリアスを同時に扱う新しい研究を提案する。
本稿では,VPRとSLAMの統合により,VPRの性能向上,特徴対応,グラフサブモジュールのポーズが著しく促進されることを示す。
知覚的エイリアス化や180度回転する極端な視点変化に拘わらず,最先端のパフォーマンスを実現するローカライズシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2020-10-03T20:18:55Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。