論文の概要: To Glue or Not to Glue? Classical vs Learned Image Matching for Mobile Mapping Cameras to Textured Semantic 3D Building Models
- arxiv url: http://arxiv.org/abs/2505.17973v1
- Date: Fri, 23 May 2025 14:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.164206
- Title: To Glue or Not to Glue? Classical vs Learned Image Matching for Mobile Mapping Cameras to Textured Semantic 3D Building Models
- Title(参考訳): Glue or Not to Glue? モバイルマッピングカメラとテクスチャセマンティック3Dビルディングモデルのための古典的対学習画像マッチング
- Authors: Simone Gaisbauer, Prabin Gyawali, Qilin Zhang, Olaf Wysocki, Boris Jutzi,
- Abstract要約: 本研究は、テクスチャ化されたCityGML LoD2モデルを用いて、視覚的位置決めにおける異なる特徴マッチング手法の有効性を体系的に評価する。
その結果,学習可能な特徴マッチング手法は,精度とロバスト性に関して従来の手法よりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 5.4693951128908935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature matching is a necessary step for many computer vision and photogrammetry applications such as image registration, structure-from-motion, and visual localization. Classical handcrafted methods such as SIFT feature detection and description combined with nearest neighbour matching and RANSAC outlier removal have been state-of-the-art for mobile mapping cameras. With recent advances in deep learning, learnable methods have been introduced and proven to have better robustness and performance under complex conditions. Despite their growing adoption, a comprehensive comparison between classical and learnable feature matching methods for the specific task of semantic 3D building camera-to-model matching is still missing. This submission systematically evaluates the effectiveness of different feature-matching techniques in visual localization using textured CityGML LoD2 models. We use standard benchmark datasets (HPatches, MegaDepth-1500) and custom datasets consisting of facade textures and corresponding camera images (terrestrial and drone). For the latter, we evaluate the achievable accuracy of the absolute pose estimated using a Perspective-n-Point (PnP) algorithm, with geometric ground truth derived from geo-referenced trajectory data. The results indicate that the learnable feature matching methods vastly outperform traditional approaches regarding accuracy and robustness on our challenging custom datasets with zero to 12 RANSAC-inliers and zero to 0.16 area under the curve. We believe that this work will foster the development of model-based visual localization methods. Link to the code: https://github.com/simBauer/To\_Glue\_or\_not\_to\_Glue
- Abstract(参考訳): 特徴マッチングは、画像登録、構造移動、視覚的ローカライゼーションなど、多くのコンピュータビジョンやフォトグラムのアプリケーションにとって必要なステップである。
SIFT機能検出や記述などの手作りの古典的手法と近傍のマッチングとRANSACのアウトリーチ除去が組み合わさって、モバイルマッピングカメラの最先端技術となった。
近年のディープラーニングの進歩により、学習可能な手法が導入され、複雑な条件下での堅牢性と性能が向上することが証明された。
普及しているにもかかわらず、カメラ間マッチングを構築するセマンティック3Dの特定のタスクに対する古典的特徴マッチング法と学習可能な特徴マッチング法との包括的比較はいまだに欠落している。
本論文は, テクスチャ化されたCityGML LoD2モデルを用いて, 視覚的ローカライゼーションにおける様々な特徴マッチング手法の有効性を体系的に評価する。
我々は、標準的なベンチマークデータセット(HPatches、MegaDepth-1500)と、ファサードテクスチャと対応するカメラ画像(地上およびドローン)からなるカスタムデータセットを使用する。
後者については,ジオレファレンストラジェクトリデータから得られる幾何学的基底真理を用いて,パースペクティブ-n-Point (PnP) アルゴリズムを用いて推定した絶対ポーズの達成可能な精度を評価する。
その結果, 学習可能な特徴マッチング手法は, RANSAC-inlierが0から12、0から0から0.16の領域を持つ, 難解なカスタムデータセットにおいて, 精度と堅牢性に関する従来のアプローチを大幅に上回ることがわかった。
本研究は,モデルに基づく視覚的ローカライゼーション手法の開発を促進するだろうと考えている。
コードへのリンク: https://github.com/simBauer/To\_Glue\_or\_not\_to\_Glue
関連論文リスト
- A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。
最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。
本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文 参考訳(メタデータ) (2025-04-24T15:08:36Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - GeoCalib: Learning Single-image Calibration with Geometric Optimization [89.84142934465685]
単一の画像から視覚的な手がかりは、焦点距離や重力方向などの内在的および外在的なカメラパラメータを推定するのに役立ちます。
この問題に対する現在のアプローチは、行と消滅点を持つ古典幾何学か、エンドツーエンドで訓練されたディープニューラルネットワークに基づいている。
最適化プロセスを通じて3次元幾何学の普遍的な規則を利用するディープニューラルネットワークであるGeoCalibを紹介する。
論文 参考訳(メタデータ) (2024-09-10T17:59:55Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - Learning to Detect Good Keypoints to Match Non-Rigid Objects in RGB
Images [7.428474910083337]
本稿では,非剛性画像対応タスクの正マッチ数を最大化するために,新しい学習キーポイント検出手法を提案する。
我々のトレーニングフレームワークは、アノテートされた画像対と予め定義された記述子抽出器をマッチングして得られる真の対応を利用して、畳み込みニューラルネットワーク(CNN)を訓練する。
実験の結果,本手法は平均整合精度で20時までに非剛体物体の実像に対して,最先端のキーポイント検出器よりも優れていた。
論文 参考訳(メタデータ) (2022-12-13T11:59:09Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。