論文の概要: GeoLink: A 3D-Aware Framework Towards Better Generalization in Cross-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2604.13183v1
- Date: Tue, 14 Apr 2026 18:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.243832
- Title: GeoLink: A 3D-Aware Framework Towards Better Generalization in Cross-View Geo-Localization
- Title(参考訳): GeoLink: クロスビューなジオローカライゼーションの一般化を目指す3Dフレームワーク
- Authors: Hongyang Zhang, Yinhao Liu, Haitao Zhang, Zhongyi Wen, Shuxian Liang, Xiansheng Hua,
- Abstract要約: 汎用的なクロスビュージオローカライゼーションは、GPSの監督なしに、見えない地域や条件のビューで同じ位置を一致させることを目的としている。
既存の手法は主に2D対応に依存しているが、ビューをまたいだ冗長な共有情報によって容易に邪魔される。
一般化可能なクロスビューなジオローカライゼーションのための3次元認識型セマンティック一貫性フレームワークGeoLinkを提案する。
- 参考スコア(独自算出の注目度): 32.57866918679771
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalizable cross-view geo-localization aims to match the same location across views in unseen regions and conditions without GPS supervision. Its core difficulty lies in severe semantic inconsistency caused by viewpoint variation and poor generalization under domain shift. Existing methods mainly rely on 2D correspondence, but they are easily distracted by redundant shared information across views, leading to less transferable representations. To address this, we propose GeoLink, a 3D-aware semantic-consistent framework for Generalizable cross-view geo-localization. Specifically, we offline reconstruct scene point clouds from multi-view drone images using VGGT, providing stable structural priors. Based on these 3D anchors, we improve 2D representation learning in two complementary ways. A Geometric-aware Semantic Refinement module mitigates potentially redundant and view-biased dependencies in 2D features under 3D guidance. In addition, a Unified View Relation Distillation module transfers 3D structural relations to 2D features, improving cross-view alignment while preserving a 2D-only inference pipeline. Extensive experiments on multiple benchmarks show that GeoLink consistently outperforms state-of-the-art methods and achieves superior generalization across unseen domains and diverse weather environments.
- Abstract(参考訳): 汎用的なクロスビュージオローカライゼーションは、GPSの監督なしに、見えない地域や条件のビューで同じ位置を一致させることを目的としている。
その中核的な難しさは、視点の変化とドメインシフトの下での一般化不足によって引き起こされる深刻な意味的不整合にある。
既存の手法は主に2D対応に依存しているが、ビュー間の冗長な共有情報によって容易に邪魔され、転送可能な表現が少なくなる。
そこで本稿では,ジェネラライズ可能なクロスビュージオローカライゼーションのための3D対応セマンティック一貫性フレームワークGeoLinkを提案する。
具体的には、VGGTを用いた多視点ドローン画像からシーンポイント雲をオフラインで再構成し、安定した構造的前提を提供する。
これらの3Dアンカーに基づいて、2つの相補的な方法で2次元表現学習を改善する。
Geometric-aware Semantic Refinementモジュールは、3Dガイダンスの下で2D機能において、潜在的に冗長でビューバイアスのある依存関係を緩和する。
さらに、Unified View Relation Distillationモジュールは2D機能に3D構造関係を転送し、2Dのみの推論パイプラインを保持しながら、クロスビューアライメントを改善する。
複数のベンチマークによる大規模な実験により、GeoLinkは最先端の手法を一貫して上回り、目に見えない領域と多様な気象環境をまたいだ優れた一般化を実現している。
関連論文リスト
- Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。
生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。
厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文 参考訳(メタデータ) (2026-04-01T06:12:16Z) - Geo$^\textbf{2}$: Geometry-Guided Cross-view Geo-Localization and Image Synthesis [12.868037364314953]
クロスビュー地理空間学習は、クロスビュージオローカライゼーション(CVGL)とクロスビュー画像合成(CVIS)の2つの重要なタスクからなる。
論文 参考訳(メタデータ) (2026-03-26T18:36:09Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。