論文の概要: Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework
- arxiv url: http://arxiv.org/abs/2603.08491v1
- Date: Mon, 09 Mar 2026 15:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.298482
- Title: Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework
- Title(参考訳): グローバル・クロスモーダルなジオローカライゼーション:百万規模のデータセットと物理一貫性学習フレームワーク
- Authors: Yutong Hu, Jinhui Chen, Chaoqiang Xu, Yuan Kou, Sili Zhou, Shaocheng Yan, Pengcheng Shi, Qingwu Hu, Jiayuan Li,
- Abstract要約: クロスモーダルジオローカライゼーション(CMGL)は、地上レベルのテキスト記述とジオタグ付き空中画像とを一致させる。
グローバルCMGL専用の最初の100万規模のデータセットであるCOREを紹介する。
モーダルな地理的ローカライゼーションのための物理ロッド・アウェア・ネットワーク(PLANET)を提案する。
- 参考スコア(独自算出の注目度): 13.268717213871147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal Geo-localization (CMGL) matches ground-level text descriptions with geo-tagged aerial imagery, which is crucial for pedestrian navigation and emergency response. However, existing researches are constrained by narrow geographic coverage and simplistic scene diversity, failing to reflect the immense spatial heterogeneity of global architectural styles and topographic features. To bridge this gap and facilitate universal positioning, we introduce CORE, the first million-scale dataset dedicated to global CMGL. CORE comprises 1,034,786 cross-view images sampled from 225 distinct geographic regions across all continents, offering an unprecedented variety of perspectives in varying environmental conditions and urban layouts. We leverage the zero-shot reasoning of Large Vision-Language Models (LVLMs) to synthesize high-quality scene descriptions rich in discriminative cues. Furthermore, we propose a physical-law-aware network (PLANET) for cross-modal geo-localization. PLANET introduces a novel contrastive learning paradigm to guide textual representations in capturing the intrinsic physical signatures of satellite imagery. Extensive experiments across varied geographic regions demonstrate that PLANet significantly outperforms state-of-the-art methods, establishing a new benchmark for robust, global-scale geo-localization. The dataset and source code will be released at https://github.com/YtH0823/CORE.
- Abstract(参考訳): クロスモーダルジオローカライゼーション(CMGL)は、地上レベルのテキスト記述とジオタグ付き空中画像とを一致させる。
しかし、既存の研究は狭い地理的範囲と簡素なシーンの多様性に制約されており、グローバルな建築様式と地形的特徴の空間的不均一性を反映していない。
このギャップを埋め、普遍的な位置決めを容易にするために、グローバルCMGL専用の最初の100万スケールデータセットであるCOREを導入する。
COREは、全大陸にまたがる225の異なる地域から採取された1,034,786のクロスビュー画像で構成されており、様々な環境条件や都市のレイアウトにおいて、前例のないさまざまな視点を提供している。
我々は、LVLM(Large Vision-Language Models)のゼロショット推論を利用して、差別的手がかりに富んだ高品質なシーン記述を合成する。
さらに,クロスモーダルなジオローカライゼーションのための物理ロッド・アウェア・ネットワーク(PLANET)を提案する。
PLANETは、衛星画像の本質的な物理的シグネチャを捉える際に、テキスト表現をガイドする、新しいコントラスト学習パラダイムを導入している。
様々な地域にわたる大規模な実験により、PLANetは最先端の手法を著しく上回り、ロバストでグローバルな地理的ローカライゼーションのための新しいベンチマークを確立した。
データセットとソースコードはhttps://github.com/YtH0823/COREで公開される。
関連論文リスト
- HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation [12.392226207474662]
画像と画像の検索を,ハイパーボリック空間に埋め込まれた地理的エンティティのコンパクトな階層構造に置き換える。
画像は、土地、地域、小地域、都市と直接的に一致し、地理的に重み付けられた双曲的学習を通して、対照的な目的にハーシン距離を直接組み込む。
文献の現在の方法と比較すると、平均測地誤差を19.5%削減し、細粒度のサブリージョン精度を43%改善している。
論文 参考訳(メタデータ) (2026-01-30T15:16:07Z) - GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings [3.43519422766841]
我々は、クエリ画像の視覚的表現と学習された地理的表現との整合性として、地理的ローカライゼーションを定式化する。
主要な実験では、5つのベンチマークデータセットで測定された25のメトリクスのうち22のベストが改善された。
論文 参考訳(メタデータ) (2025-10-01T20:39:48Z) - Towards Interpretable Geo-localization: a Concept-Aware Global Image-GPS Alignment Framework [9.31168320050859]
地理的ローカライゼーションは、全世界で撮影された画像の正確な地理的位置を決定することを含む。
現在の概念に基づく解釈可能性法は、ジオアライメント画像位置埋め込み目標と効果的に一致しない。
我々の知る限り、これは地理的局在化に解釈可能性を導入する最初の試みである。
論文 参考訳(メタデータ) (2025-09-02T03:07:26Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - CV-Cities: Advancing Cross-View Geo-Localization in Global Cities [3.074201632920997]
クロスビュージオローカライゼーション(CVGL)は、地上画像の地理的位置を決定するために衛星画像のマッチングと検索を行う。
この課題は, 視点の相違, 局所化シナリオの複雑化, グローバルなローカライゼーションの必要性など, 重大な課題に直面している。
本稿では,基本モデルであるDINOv2と高度な機能ミキサーを統合した新しいCVGLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T11:41:22Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。