論文の概要: Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception
- arxiv url: http://arxiv.org/abs/2604.01747v1
- Date: Thu, 02 Apr 2026 08:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.605193
- Title: Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception
- Title(参考訳): 3次元幾何学的知覚によるUAVクロスビュージオローカライゼーションの統一
- Authors: Haoyuan Li, Wen Yang, Fang Xu, Hong Tan, Haijian Zhang, Shengyang Li, Gui-Song Xia,
- Abstract要約: 無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。
本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。
提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
- 参考スコア(独自算出の注目度): 51.687842983240564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-view geo-localization for Unmanned Aerial Vehicles (UAVs) operating in GNSS-denied environments remains challenging due to the severe geometric discrepancy between oblique UAV imagery and orthogonal satellite maps. Most existing methods address this problem through a decoupled pipeline of place retrieval and pose estimation, implicitly treating perspective distortion as appearance noise rather than an explicit geometric transformation. In this work, we propose a geometry-aware UAV geo-localization framework that explicitly models the 3D scene geometry to unify coarse place recognition and fine-grained pose estimation within a single inference pipeline. Our approach reconstructs a local 3D scene from multi-view UAV image sequences using a Visual Geometry Grounded Transformer (VGGT), and renders a virtual Bird's-Eye View (BEV) representation that orthorectifies the UAV perspective to align with satellite imagery. This BEV serves as a geometric intermediary that enables robust cross-view retrieval and provides spatial priors for accurate 3 Degrees of Freedom (3-DoF) pose regression. To efficiently handle multiple location hypotheses, we introduce a Satellite-wise Attention Block that isolates the interaction between each satellite candidate and the reconstructed UAV scene, preventing inter-candidate interference while maintaining linear computational complexity. In addition, we release a recalibrated version of the University-1652 dataset with precise coordinate annotations and spatial overlap analysis, enabling rigorous evaluation of end-to-end localization accuracy. Extensive experiments on the refined University-1652 benchmark and SUES-200 demonstrate that our method significantly outperforms state-of-the-art baselines, achieving robust meter-level localization accuracy and improved generalization in complex urban environments.
- Abstract(参考訳): 斜めUAV画像と直交衛星地図との厳密な幾何学的相違により, GNSS の環境下での無人航空機(UAV)のクロスビュージオローカライゼーションはいまだに困難である。
既存の手法の多くは、位置探索とポーズ推定の分離されたパイプラインを通じてこの問題に対処し、視線歪みを明示的な幾何学的変換ではなく外観雑音として暗黙的に扱う。
本研究では,3次元シーン形状を明示的にモデル化し,粗い位置認識と細粒度ポーズ推定を単一推論パイプライン内で統一する,幾何学的認識型UAV測位フレームワークを提案する。
提案手法は,VGGT (Visual Geometry Grounded Transformer) を用いて,多視点UAV画像シーケンスから局所的な3Dシーンを再構成し,UAV視点を補正して衛星画像と整合する仮想Bird's-Eye View (BEV) 表現を描画する。
このBEVは、堅牢なクロスビュー検索を可能にする幾何学的仲介者として機能し、正確な3次元自由度(3-DoF)ポーズ回帰のための空間的事前情報を提供する。
複数の位置仮説を効率的に扱うために,各衛星候補と再構成されたUAVシーンとの相互作用を分離し,線形計算複雑性を維持しながら候補間干渉を防止する衛星ワイド・アテンション・ブロックを導入する。
さらに,正確な座標アノテーションと空間重なり解析を備えたUniversity-1652データセットの校正版をリリースし,エンドツーエンドのローカライゼーション精度の厳密な評価を可能にした。
改良されたUniversity-1652ベンチマークとSUES-200の広範囲な実験により、我々の手法は最先端のベースラインを著しく上回り、ロバストなメートルレベルのローカライゼーション精度を実現し、複雑な都市環境における一般化を改善した。
関連論文リスト
- SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach [15.415356946083861]
UAV画像と衛星画像のクロスビュージオローカライゼーションは、標的位置決めとUAV自己配置において重要な役割を担っている。
既存の手法のほとんどは、UAVクエリと衛星ギャラリー間のスケール一貫性の理想的な仮定に依存している。
この不一致は視野のずれや特徴ミスマッチを引き起こし、CVGLの堅牢性を著しく低下させる。
意味アンカーを用いた単眼UAV画像から絶対距離を復元する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2026-03-08T08:51:19Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。