論文の概要: DualGeo: A Dual-View Framework for Worldwide Image Geo-localization
- arxiv url: http://arxiv.org/abs/2604.25533v1
- Date: Tue, 28 Apr 2026 12:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.841598
- Title: DualGeo: A Dual-View Framework for Worldwide Image Geo-localization
- Title(参考訳): DualGeo: 世界規模の画像ジオローカライゼーションのためのデュアルビューフレームワーク
- Authors: Junchao Cui, Wenqi Shi, Shaoyong Du, Hang He, Xuanzi Ma, Hao Tang, Xiangyang Luo,
- Abstract要約: 本研究では,世界規模の画像位置情報化のための2段階フレームワークであるDualGeoを提案する。
まず、画像とセマンティックセグメンテーション機能を融合させることで、地理的表現基盤を確立する。
第2に、地理的クラスタリングを用いて、検索された候補を再ランク付けすることで、地理認知の洗練を行う。
実験の結果、DualGeoは最先端の手法より優れており、街路レベル(1km)と都市レベル(25km)のローカライゼーション精度はそれぞれ3.6%-16.58%、1.29%-8.77%向上している。
- 参考スコア(独自算出の注目度): 24.463319677769405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide image geo-localization aims to infer the geographic location of an image captured anywhere on Earth, spanning street, city, regional, national, and continental scales. Existing methods rely on visual features that are sensitive to environmental variations (e.g., lighting, season, and weather) and lack effective post-processing to filter outlier candidates, limiting localization accuracy. To address these limitations, we propose DualGeo, a two-stage framework for worldwide image geo-localization. First, it establishes a geo-representational foundation by fusing image and semantic segmentation features via bidirectional cross-attention. The fused features are then aligned with GPS coordinates through dual-view contrastive learning to build a global retrieval database. Second, it performs geo-cognitive refinement by re-ranking retrieved candidates using geographic clustering. It then feeds them into large multimodal models (LMMs) for final coordinate prediction. Experiments on IM2GPS, IM2GPS3k, and YFCC4k show that DualGeo outperforms state-of-the-art methods, improving street-level (<1 km) and city-level (<25 km) localization accuracy by 3.6%-16.58% and 1.29%-8.77%, respectively. Our code and datasets are available : https://github.com/CJ310177/DualGeo.
- Abstract(参考訳): 世界規模の画像ジオローカライゼーションは、地球上のどこでも、街路、都市、地域、国家、大陸規模で撮影された画像の位置を推測することを目的としている。
既存の手法では、環境の変化に敏感な視覚的特徴(例えば、照明、季節、天気など)を頼りにしており、オフショア候補をフィルタリングする効果的な後処理を欠いており、ローカライゼーションの精度が制限されている。
これらの制約に対処するため,世界規模の画像位置情報化のための2段階フレームワークであるDualGeoを提案する。
まず、画像とセマンティックセグメンテーション機能を双方向のクロスアテンションを介して融合させることにより、地理的表現基盤を確立する。
融合した機能は、デュアルビューのコントラスト学習を通じてGPS座標と整列して、グローバルな検索データベースを構築する。
第2に、地理的クラスタリングを用いて、検索された候補を再ランク付けすることで、地理認知の洗練を行う。
その後、最終的な座標予測のために大きなマルチモーダルモデル(LMM)にフィードする。
IM2GPS、IM2GPS3k、YFCC4kの実験では、DualGeoは最先端の手法より優れており、街路レベル(<1 km)と都市レベル(<25 km)のローカライゼーション精度はそれぞれ3.6%-16.58%、1.29%-8.77%向上している。
私たちのコードとデータセットは、https://github.com/CJ310177/DualGeo.comで利用可能です。
関連論文リスト
- GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [23.297305067573316]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。