論文の概要: VLM-Guided Visual Place Recognition for Planet-Scale Geo-Localization
- arxiv url: http://arxiv.org/abs/2507.17455v1
- Date: Wed, 23 Jul 2025 12:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.987016
- Title: VLM-Guided Visual Place Recognition for Planet-Scale Geo-Localization
- Title(参考訳): 惑星規模のジオローカライゼーションのためのVLM誘導ビジュアルプレース認識
- Authors: Sania Waheed, Na Min An, Michael Milford, Sarvapali D. Ramchurn, Shoaib Ehsan,
- Abstract要約: 本稿では,視覚言語モデルと視覚的位置認識の強みを融合した,新しいハイブリッドなジオローカライゼーションフレームワークを提案する。
我々は,複数のジオローカライゼーションベンチマークに対するアプローチを評価し,従来手法よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 24.433604332415204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geo-localization from a single image at planet scale (essentially an advanced or extreme version of the kidnapped robot problem) is a fundamental and challenging task in applications such as navigation, autonomous driving and disaster response due to the vast diversity of locations, environmental conditions, and scene variations. Traditional retrieval-based methods for geo-localization struggle with scalability and perceptual aliasing, while classification-based approaches lack generalization and require extensive training data. Recent advances in vision-language models (VLMs) offer a promising alternative by leveraging contextual understanding and reasoning. However, while VLMs achieve high accuracy, they are often prone to hallucinations and lack interpretability, making them unreliable as standalone solutions. In this work, we propose a novel hybrid geo-localization framework that combines the strengths of VLMs with retrieval-based visual place recognition (VPR) methods. Our approach first leverages a VLM to generate a prior, effectively guiding and constraining the retrieval search space. We then employ a retrieval step, followed by a re-ranking mechanism that selects the most geographically plausible matches based on feature similarity and proximity to the initially estimated coordinates. We evaluate our approach on multiple geo-localization benchmarks and show that it consistently outperforms prior state-of-the-art methods, particularly at street (up to 4.51%) and city level (up to 13.52%). Our results demonstrate that VLM-generated geographic priors in combination with VPR lead to scalable, robust, and accurate geo-localization systems.
- Abstract(参考訳): 惑星スケールでの単一画像からのジオローカライゼーション(実際には、誘拐されたロボット問題の高度なあるいは極端なバージョン)は、広い場所、環境条件、シーンのバリエーションによるナビゲーション、自律運転、災害対応などのアプリケーションにおいて、基本的な課題である。
地理的ローカライゼーションのための従来の検索手法はスケーラビリティと知覚的エイリアスに苦慮する一方、分類に基づくアプローチは一般化を欠き、広範なトレーニングデータを必要とする。
視覚言語モデル(VLM)の最近の進歩は、文脈的理解と推論を活用することで、有望な代替手段を提供する。
しかしながら、VLMは高い精度を達成する一方で、幻覚や解釈性に欠けることが多く、スタンドアローンの解として信頼できない。
本研究では,VLMの強みと検索に基づく視覚的位置認識(VPR)手法を併用した,ハイブリッドなジオローカライゼーションフレームワークを提案する。
提案手法は,まずVLMを利用して,検索空間の事前的,効果的な誘導と制約を行う。
次に,特徴的類似度と初期推定座標との近接度に基づいて,地理的にもっとも妥当なマッチングを選択する機構を再評価する。
提案手法は, 道路(4.51%) と都市(最大13.52%) において, 従来手法よりも一貫して優れていることを示す。
以上の結果から,VLM生成とVPRの併用により,拡張性,堅牢性,高精度な地理局所化システムの実現が期待できる。
関連論文リスト
- From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。
我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-03T06:04:33Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [27.848962405476108]
新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Image-based Geo-localization for Robotics: Are Black-box Vision-Language Models there yet? [25.419763184667985]
VLM(Vision-Language Model)は、画像ジオローカライゼーションを含むロボットアプリケーションにエキサイティングな機会を提供する。
近年の研究では、VLMをジオローカライゼーションのための埋め込み抽出器として利用することに焦点を当てている。
本稿では,最先端のVLMをスタンドアローン・ゼロショット・ジオローカライズシステムとしての可能性について検討する。
論文 参考訳(メタデータ) (2025-01-28T13:46:01Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。