論文の概要: CV-Cities: Advancing Cross-View Geo-Localization in Global Cities
- arxiv url: http://arxiv.org/abs/2411.12431v1
- Date: Tue, 19 Nov 2024 11:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:34.514293
- Title: CV-Cities: Advancing Cross-View Geo-Localization in Global Cities
- Title(参考訳): CV-Cities:グローバルシティにおけるクロスビュージオローカライゼーションの促進
- Authors: Gaoshuang Huang, Yang Zhou, Luying Zhao, Wenjian Gan,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は、地上画像の地理的位置を決定するために衛星画像のマッチングと検索を行う。
この課題は, 視点の相違, 局所化シナリオの複雑化, グローバルなローカライゼーションの必要性など, 重大な課題に直面している。
本稿では,基本モデルであるDINOv2と高度な機能ミキサーを統合した新しいCVGLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.074201632920997
- License:
- Abstract: Cross-view geo-localization (CVGL), which involves matching and retrieving satellite images to determine the geographic location of a ground image, is crucial in GNSS-constrained scenarios. However, this task faces significant challenges due to substantial viewpoint discrepancies, the complexity of localization scenarios, and the need for global localization. To address these issues, we propose a novel CVGL framework that integrates the vision foundational model DINOv2 with an advanced feature mixer. Our framework introduces the symmetric InfoNCE loss and incorporates near-neighbor sampling and dynamic similarity sampling strategies, significantly enhancing localization accuracy. Experimental results show that our framework surpasses existing methods across multiple public and self-built datasets. To further improve globalscale performance, we have developed CV-Cities, a novel dataset for global CVGL. CV-Cities includes 223,736 ground-satellite image pairs with geolocation data, spanning sixteen cities across six continents and covering a wide range of complex scenarios, providing a challenging benchmark for CVGL. The framework trained with CV-Cities demonstrates high localization accuracy in various test cities, highlighting its strong globalization and generalization capabilities. Our datasets and codes are available at https://github.com/GaoShuang98/CVCities.
- Abstract(参考訳): 衛星画像のマッチングと検索を伴って地上画像の地理的位置を決定するクロスビュージオローカライゼーション(CVGL)は、GNSS制約シナリオにおいて重要である。
しかし, この課題は, 視点の相違, 局所化シナリオの複雑化, グローバルなローカライゼーションの必要性など, 重大な課題に直面している。
これらの課題に対処するために,視覚基盤モデルであるDINOv2と高度な機能ミキサーを統合した新しいCVGLフレームワークを提案する。
本フレームワークは, 対称なInfoNCE損失を導入し, 近接サンプリングと動的類似性サンプリングを取り入れ, 局所化精度を大幅に向上させる。
実験の結果,我々のフレームワークは,複数の公開および自己構築データセットにまたがる既存の手法を超越していることがわかった。
グローバルなCVGLのための新しいデータセットであるCV-Citiesを開発した。
CV-Citiesには、位置情報データを備えた223,736枚の地上衛星画像ペアが含まれており、6大陸にまたがる16都市にまたがり、幅広い複雑なシナリオをカバーする。
CV-Citiesでトレーニングされたフレームワークは、様々なテスト都市で高いローカライゼーション精度を示し、その強力なグローバル化と一般化能力を強調している。
データセットとコードはhttps://github.com/GaoShuang98/CVCities.comで公開されています。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Cross-View Geo-Localization with Street-View and VHR Satellite Imagery in Decentrality Settings [39.252555758596706]
Cross-View Geo-Localizationは、ストリートビュークエリ画像とジオタグ付き空中ビュー参照画像とを一致させる。
分散性はより深い調査を保証する重要な要因であり、より大規模な分散性は局所化効率を大幅に改善できるが、局所化精度の低下のコストがかかる。
DReSSは、広い地理的範囲と多様な景観を持つクロスビューなジオローカライゼーションを評価するために設計された、新しいデータセットである。
論文 参考訳(メタデータ) (2024-12-16T08:07:53Z) - World-Consistent Data Generation for Vision-and-Language Navigation [52.08816337783936]
VLN(Vision-and-Language Navigation)は、自然言語の指示に従って、エージェントがフォトリアリスティックな環境をナビゲートする必要がある課題である。
VLNの主な障害はデータの不足であり、目に見えない環境における一般化性能の低下につながる。
多様性と世界整合性の両方を満たす効率的なデータ拡張フレームワークである世界整合データ生成(WCGEN)を提案する。
論文 参考訳(メタデータ) (2024-12-09T11:40:54Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery [22.716322265391852]
衛星コントラスト位置画像事前学習(SatCLIP)について紹介する。
SatCLIPは、公開衛星画像のCNNとViTの視覚パターンを地理的座標と一致させることで、位置の暗黙的な表現を学習する。
実験では、温度予測、動物認識、人口密度推定を含む9つの異なる位置依存タスクにおいて、SatCLIP埋め込みを用いて予測性能を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:14:40Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。