論文の概要: Fine-Grained Cross-View Localization via Local Feature Matching and Monocular Depth Priors
- arxiv url: http://arxiv.org/abs/2509.09792v1
- Date: Thu, 11 Sep 2025 18:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.895495
- Title: Fine-Grained Cross-View Localization via Local Feature Matching and Monocular Depth Priors
- Title(参考訳): 局所的特徴マッチングと単眼深度前処理による細粒度クロスビューの局所化
- Authors: Zimin Xia, Chenghao Xu, Alexandre Alahi,
- Abstract要約: 本稿では,高精度かつ高度に解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3デグリエ・オブ・フリーダムのポーズを、その局所的な特徴と基準空中画像とを一致させて推定する。
- 参考スコア(独自算出の注目度): 80.57282092735991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an accurate and highly interpretable fine-grained cross-view localization method that estimates the 3 Degrees of Freedom pose of a ground-level image by matching its local features with a reference aerial image. Previous methods typically transform the ground image into a bird's-eye view (BEV) representation and then align it with the aerial image for localization. However, this transformation often leads to information loss due to perspective distortion or compression of height information, thereby degrading alignment quality with the aerial view. In contrast, our method directly establishes correspondences between ground and aerial images and lifts only the matched keypoints to BEV space using monocular depth prior. Notably, modern depth predictors can provide reliable metric depth when the test samples are similar to the training data. When the depth distribution differs, they still produce consistent relative depth, i.e., depth accurate up to an unknown scale. Our method supports both metric and relative depth. It employs a scale-aware Procrustes alignment to estimate the camera pose from the correspondences and optionally recover the scale when using relative depth. Experimental results demonstrate that, with only weak supervision on camera pose, our method learns accurate local feature correspondences and achieves superior localization performance under challenging conditions, such as cross-area generalization and unknown orientation. Moreover, our method is compatible with various relative depth models without requiring per-model finetuning. This flexibility, combined with strong localization performance, makes it well-suited for real-world deployment.
- Abstract(参考訳): 地上画像の3自由度ポーズを、その局所的特徴と基準空中画像とを一致させて推定する。
従来の方法では、地上の画像を鳥眼ビュー(BEV)の表現に変換し、それを空中の画像と整列して位置付けする。
しかし、この変換は、視線歪みや高度情報の圧縮による情報損失を招き、空中からの視界との整合性を低下させる。
対照的に,本手法は地上画像と空中画像の対応性を直接確立し,一致したキーポイントのみをモノクロ深度を用いてBEV空間にリフトする。
特に、現代の深度予測器は、テストサンプルがトレーニングデータと類似している場合、信頼できるメートル法深度を提供することができる。
深さ分布が異なる場合、それらは依然として一貫した相対的な深さ、すなわち未知のスケールまで正確な深さを生成する。
我々の方法はメートル法と相対深度の両方をサポートする。
対応からカメラのポーズを推定し、相対深度を用いてスケールを任意に回復するために、スケール対応のプロクレストアライメントを採用している。
実験により, カメラポーズの監督が弱いだけで, 高精度な局所特徴対応を学習し, クロスエリアの一般化や未知の向きなど, 困難な条件下での高精度なローカライゼーション性能を実現することができた。
さらに,本手法はモデルごとの微調整を必要とせず,各種の相対深度モデルと互換性がある。
この柔軟性と強力なローカライゼーションパフォーマンスが組み合わさって、現実世界のデプロイメントに適しています。
関連論文リスト
- Revisiting Cross-View Localization from Image Matching [12.411420734642988]
クロスビューのローカライゼーションは、地上画像の3自由度ポーズを航空画像や衛星画像に登録することによって推定することを目的としている。
既存の方法は、直接ポーズを取るか、共有された鳥眼ビュー(BEV)空間で特徴を整列させる。
マッチングとローカライゼーションの両方を改善する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-14T14:57:31Z) - FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching [69.81167130510333]
本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。
地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。
従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
論文 参考訳(メタデータ) (2025-03-24T14:34:20Z) - A Novel Solution for Drone Photogrammetry with Low-overlap Aerial Images using Monocular Depth Estimation [6.689484367905018]
低オーバラップの空中画像は、従来のフォトグラム法に重大な課題を生んでいる。
本稿では,従来の手法の限界に対処するため,単眼深度推定に基づく新しいワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:59:38Z) - Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization [15.89357790711828]
本稿では,衛星画像に対する地上画像に対する3DFカメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習する手法を提案する。
提案手法は,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarデータセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
論文 参考訳(メタデータ) (2023-09-27T10:26:26Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Self-Supervised Learning for Monocular Depth Estimation from Aerial
Imagery [0.20072624123275526]
航空画像からの単眼深度推定のための自己教師型学習法を提案する。
このために、単一の移動カメラからの画像シーケンスのみを使用し、深度を同時に推定し、情報をポーズすることを学ぶ。
ポーズと深さ推定の重みを共有することによって、比較的小さなモデルが実現され、リアルタイムの応用が好まれる。
論文 参考訳(メタデータ) (2020-08-17T12:20:46Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。