論文の概要: VFM-Loc: Zero-Shot Cross-View Geo-Localization via Aligning Discriminative Visual Hierarchies
- arxiv url: http://arxiv.org/abs/2603.13855v1
- Date: Sat, 14 Mar 2026 09:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.447726
- Title: VFM-Loc: Zero-Shot Cross-View Geo-Localization via Aligning Discriminative Visual Hierarchies
- Title(参考訳): VFM-Loc:識別的視覚階層の調整によるゼロショットクロスビュージオローカライゼーション
- Authors: Jun Lu, Zehao Sang, Haoqi Wei, Xiangyun Liu, Kun Zhu, Haitao Guo, Zhihui Gong, Lei Ding,
- Abstract要約: リモートセンシングにおけるCross-View Geo-Localization (CVGL) は、ジオタグ付き衛星画像とマッチングすることで、ドローンビュークエリを見つけることを目的としている。
視覚基礎モデル(VFM)から一般化可能な視覚表現を利用するゼロショットCVGLのためのトレーニングフリーフレームワークであるVFM-Locを提案する。
実験により、VFM-Locは標準ベンチマークで強いゼロショット精度を示し、大きな斜角角を持つ挑戦的なLO-UCVデータセット上で、Recall@1で教師付きメソッドを20%以上超えることが示されている。
- 参考スコア(独自算出の注目度): 5.868908918033978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-View Geo-Localization (CVGL) in remote sensing aims to locate a drone-view query by matching it to geo-tagged satellite images. Although supervised methods have achieved strong results on closeset benchmarks, they often fail to generalize to unconstrained, real-world scenarios due to severe viewpoint differences and dataset bias. To overcome these limitations, we present VFM-Loc, a training-free framework for zero-shot CVGL that leverages the generalizable visual representations from vision foundational models (VFMs). VFM-Loc identifies and matches discriminative visual clues across different viewpoints through a progressive alignment strategy. First, we design a hierarchical clue extraction mechanism using Generalized Mean pooling and Scale-Weighted RMAC to preserve distinctive visual clues across scales while maintaining hierarchical confidence. Second, we introduce a statistical manifold alignment pipeline based on domain-wise PCA and Orthogonal Procrustes analysis, linearly aligning heterogeneous feature distributions in a shared metric space. Experiments demonstrate that VFM-Loc exhibits strong zero-shot accuracy on standard benchmarks and surpasses supervised methods by over 20% in Recall@1 on the challenging LO-UCV dataset with large oblique angles. This work highlights that principled alignment of pre-trained features can effectively bridge the cross-view gap, establishing a robust and training-free paradigm for real-world CVGL. The relevant code is made available at: https://github.com/DingLei14/VFM-Loc.
- Abstract(参考訳): リモートセンシングにおけるCross-View Geo-Localization (CVGL) は、ジオタグ付き衛星画像とマッチングすることで、ドローンビュークエリを見つけることを目的としている。
教師付き手法はクローズセットベンチマークで強い結果を得たが、厳しい視点差とデータセットバイアスのため、制約のない実世界のシナリオに一般化できないことが多い。
これらの制限を克服するために、視覚基礎モデル(VFM)から一般化可能な視覚表現を活用するゼロショットCVGLのためのトレーニングフリーフレームワークであるVFM-Locを提案する。
VFM-Locは、プログレッシブアライメント戦略を通じて、異なる視点における識別的視覚的手がかりを特定し、一致させる。
まず,一般化平均プーリングとスケール重み付きRMACを用いて階層的手がかり抽出機構を設計し,階層的信頼性を維持しながら,スケール全体の視覚的手がかりを保存する。
第2に、領域ワイドPCAと直交Procrustes解析に基づく統計多様体アライメントパイプラインを導入し、共有距離空間における不均一な特徴分布を線形に整列する。
実験により、VFM-Locは標準ベンチマークで強いゼロショット精度を示し、大きな斜角角を持つ挑戦的なLO-UCVデータセット上で、Recall@1で教師付きメソッドを20%以上超えることが示されている。
この研究は、事前訓練された機能の原則的なアライメントが、クロスビューギャップを効果的に橋渡しし、現実世界のCVGLのための堅牢でトレーニング不要なパラダイムを確立することを強調している。
関連するコードは、https://github.com/DingLei14/VFM-Loc.comで公開されている。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [20.043977909592115]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。
意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization [28.941724648519102]
本稿では,大規模クロスビュー・ジオローカライゼーション(CVGL)におけるラベルなしデータの有効利用について検討する。
CVGLの一般的なアプローチは、地上衛星画像ペアに依存し、ラベル駆動型教師付きトレーニングを採用する。
本稿では,初期擬似ラベルを検索するためのモデルを案内するクロスビュープロジェクションを含む教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T07:48:35Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。