論文の概要: Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching
- arxiv url: http://arxiv.org/abs/2509.09792v2
- Date: Mon, 29 Sep 2025 14:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.517802
- Title: Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching
- Title(参考訳): Loc$^2$:Depth-Lifted Local Feature Matchingによる解釈可能なクロスビューローカライゼーション
- Authors: Zimin Xia, Chenghao Xu, Alexandre Alahi,
- Abstract要約: 本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
- 参考スコア(独自算出の注目度): 80.57282092735991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an accurate and interpretable fine-grained cross-view localization method that estimates the 3 Degrees of Freedom (DoF) pose of a ground-level image by matching its local features with a reference aerial image. Unlike prior approaches that rely on global descriptors or bird's-eye-view (BEV) transformations, our method directly learns ground-aerial image-plane correspondences using weak supervision from camera poses. The matched ground points are lifted into BEV space with monocular depth predictions, and scale-aware Procrustes alignment is then applied to estimate camera rotation, translation, and optionally the scale between relative depth and the aerial metric space. This formulation is lightweight, end-to-end trainable, and requires no pixel-level annotations. Experiments show state-of-the-art accuracy in challenging scenarios such as cross-area testing and unknown orientation. Furthermore, our method offers strong interpretability: correspondence quality directly reflects localization accuracy and enables outlier rejection via RANSAC, while overlaying the re-scaled ground layout on the aerial image provides an intuitive visual cue of localization accuracy.
- Abstract(参考訳): 本研究では,地上画像の3自由度(DoF)ポーズを,その局所的特徴と基準空中画像とのマッチングにより推定する,高精度で解釈可能なクロスビューローカライズ手法を提案する。
グローバルディスクリプタや鳥眼視変換(BEV)に頼っていた従来の手法とは異なり,本手法はカメラポーズからの弱監督を用いて地上画像プレーン対応を直接学習する。
一致した接地点を単眼深度予測でBEV空間に持ち上げ、その後、カメラ回転、翻訳、オプションで相対深度と航空距離空間のスケールを推定するために、スケール対応プロクリストアライメントを適用する。
この定式化は軽量でエンドツーエンドのトレーニングが可能で、ピクセルレベルのアノテーションを必要としない。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
さらに, 通信品質は局所化精度を直接反映し, RANSACによる外乱除去を可能にするとともに, 再スケールした地上レイアウトを航空画像上にオーバーレイすることで, 位置化精度の直感的な視覚的キューを提供する。
関連論文リスト
- Revisiting Cross-View Localization from Image Matching [12.411420734642988]
クロスビューのローカライゼーションは、地上画像の3自由度ポーズを航空画像や衛星画像に登録することによって推定することを目的としている。
既存の方法は、直接ポーズを取るか、共有された鳥眼ビュー(BEV)空間で特徴を整列させる。
マッチングとローカライゼーションの両方を改善する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-14T14:57:31Z) - FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching [69.81167130510333]
本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。
地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。
従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
論文 参考訳(メタデータ) (2025-03-24T14:34:20Z) - A Novel Solution for Drone Photogrammetry with Low-overlap Aerial Images using Monocular Depth Estimation [6.689484367905018]
低オーバラップの空中画像は、従来のフォトグラム法に重大な課題を生んでいる。
本稿では,従来の手法の限界に対処するため,単眼深度推定に基づく新しいワークフローを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:59:38Z) - Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization [15.89357790711828]
本稿では,衛星画像に対する地上画像に対する3DFカメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習する手法を提案する。
提案手法は,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarデータセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
論文 参考訳(メタデータ) (2023-09-27T10:26:26Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z) - Self-Supervised Learning for Monocular Depth Estimation from Aerial
Imagery [0.20072624123275526]
航空画像からの単眼深度推定のための自己教師型学習法を提案する。
このために、単一の移動カメラからの画像シーケンスのみを使用し、深度を同時に推定し、情報をポーズすることを学ぶ。
ポーズと深さ推定の重みを共有することによって、比較的小さなモデルが実現され、リアルタイムの応用が好まれる。
論文 参考訳(メタデータ) (2020-08-17T12:20:46Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。