論文の概要: VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
- arxiv url: http://arxiv.org/abs/2603.12918v1
- Date: Fri, 13 Mar 2026 11:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.068811
- Title: VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
- Title(参考訳): VIRD: 両軸変換によるビュー不変表現によるクロスビューポーズ推定
- Authors: Juhye Park, Wooju Lee, Dasol Hong, Changki Sung, Youngwoo Seo, Dongwan Kang, Hyun Myung,
- Abstract要約: クロスビューポーズ推定は、ジオレファレンス衛星画像に対する地上画像に対応する3DFカメラポーズを予測する。
両軸変換によるビュー不変表現を構成する新しいクロスビューポーズ推定法を提案する。
KITTIデータセットとVIGORデータセットの実験では、VIRDは方向の先行のない最先端の手法よりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 12.845645384371876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate global localization is crucial for autonomous driving and robotics, but GNSS-based approaches often degrade due to occlusion and multipath effects. As an emerging alternative, cross-view pose estimation predicts the 3-DoF camera pose corresponding to a ground-view image with respect to a geo-referenced satellite image. However, existing methods struggle to bridge the significant viewpoint gap between the ground and satellite views mainly due to limited spatial correspondences. We propose a novel cross-view pose estimation method that constructs view-invariant representations through dual-axis transformation (VIRD). VIRD first applies a polar transformation to the satellite view to establish horizontal correspondence, then uses context-enhanced positional attention on the ground and polar-transformed satellite features to resolve vertical misalignment, explicitly mitigating the viewpoint gap. A view-reconstruction loss is introduced to strengthen the view invariance further, encouraging the derived representations to reconstruct the original and cross-view images. Experiments on the KITTI and VIGOR datasets demonstrate that VIRD outperforms the state-of-the-art methods without orientation priors, reducing median position and orientation errors by 50.7% and 76.5% on KITTI, and 18.0% and 46.8% on VIGOR, respectively.
- Abstract(参考訳): 正確なグローバルなローカライゼーションは自律走行とロボティクスにとって重要であるが、GNSSベースのアプローチは、閉塞とマルチパス効果のためにしばしば低下する。
新たな選択肢として、ジオレファレンス衛星画像に対する地上画像に対応する3DFカメラポーズを、クロスビューポーズ推定により予測する。
しかし、既存の手法は、主に空間的な通信が限られているため、地上と衛星の視界のかなりのギャップを埋めることに苦慮している。
本稿では、ビュー不変表現を2軸変換(VIRD)により構築する、新しいクロスビューポーズ推定手法を提案する。
VIRDは、まず、水平対応を確立するために衛星の視界に極性変換を適用し、次いで、地上と極性変換された衛星の特徴に文脈的な注意を向け、垂直方向の不整合を解消し、視点ギャップを明示的に緩和する。
ビュー不変性をさらに強化するために、ビュー再構成損失を導入し、導出表現が元のビューイメージとクロスビューイメージを再構成することを奨励する。
KITTI と VIGOR データセットの実験では、VIRD は方向の先行しない最先端の手法より優れており、中央値の位置と方向の誤差は KITTI では 50.7% と 76.5% 、VIGOR では 18.0% と 46.8% である。
関連論文リスト
- Revisiting Cross-View Localization from Image Matching [12.411420734642988]
クロスビューのローカライゼーションは、地上画像の3自由度ポーズを航空画像や衛星画像に登録することによって推定することを目的としている。
既存の方法は、直接ポーズを取るか、共有された鳥眼ビュー(BEV)空間で特徴を整列させる。
マッチングとローカライゼーションの両方を改善する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-14T14:57:31Z) - Geometry-guided Cross-view Diffusion for One-to-many Cross-view Image Synthesis [48.945931374180795]
本稿では,対応する衛星画像から可視な地上画像を生成することを目的とした,クロスビュー合成のための新しいアプローチを提案する。
これらの課題を衛星間(Sat2Grd)と地上間(Grd2Sat)合成と呼ぶ。
論文 参考訳(メタデータ) (2024-12-04T13:47:51Z) - Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - Fine-Grained Cross-View Geo-Localization Using a Correlation-Aware
Homography Estimator [12.415973198004169]
そこで我々は, 微粒なクロスビューなジオローカライゼーションの新たなアプローチを提案する。
提案手法は,同じ領域をカバーするGPSタグ付き衛星画像と,歪んだ地上画像とを一致させる。
提案手法は30FPSの速度で動作し,最先端技術より優れる。
論文 参考訳(メタデータ) (2023-08-31T17:59:24Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via
Geometry-Guided Cross-View Transformer [66.82008165644892]
地上レベルの画像と一致/検索衛星画像との相対的な回転と変換を推定することにより、地上カメラの位置と方向の精度を向上させる手法を提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-16T11:52:27Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。