論文の概要: Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales
- arxiv url: http://arxiv.org/abs/2510.10880v1
- Date: Mon, 13 Oct 2025 01:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.138287
- Title: Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales
- Title(参考訳): 地球はどこにあるのか? スケール横断的なモデル測地技能の探索のためのビジョンランゲージベンチマーク
- Authors: Zhaofang Qian, Hardy Chen, Zeyu Wang, Li Zhang, Zijun Wang, Xiaoke Huang, Hui Liu, Xianfeng Tang, Zeyu Zheng, Haoqin Tu, Cihang Xie, Yuyin Zhou,
- Abstract要約: 視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
- 参考スコア(独自算出の注目度): 61.03549470159347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have advanced rapidly, yet their capacity for image-grounded geolocation in open-world conditions, a task that is challenging and of demand in real life, has not been comprehensively evaluated. We present EarthWhere, a comprehensive benchmark for VLM image geolocation that evaluates visual recognition, step-by-step reasoning, and evidence use. EarthWhere comprises 810 globally distributed images across two complementary geolocation scales: WhereCountry (i.e., 500 multiple-choice question-answering, with country-level answer and panoramas) and WhereStreet (i.e., 310 fine-grained street-level identification tasks requiring multi-step reasoning with optional web search). For evaluation, we adopt the final-prediction metrics: location accuracies within k km (Acc@k) for coordinates and hierarchical path scores for textual localization. Beyond this, we propose to explicitly score intermediate reasoning chains using human-verified key visual clues and a Shapley-reweighted thinking score that attributes credit to each clue's marginal contribution. We benchmark 13 state-of-the-art VLMs with web searching tools on our EarthWhere and report different types of final answer accuracies as well as the calibrated model thinking scores. Overall, Gemini-2.5-Pro achieves the best average accuracy at 56.32%, while the strongest open-weight model, GLM-4.5V, reaches 34.71%. We reveal that web search and reasoning do not guarantee improved performance when visual clues are limited, and models exhibit regional biases, achieving up to 42.7% higher scores in certain areas than others. These findings highlight not only the promise but also the persistent challenges of models to mitigate bias and achieve robust, fine-grained localization. We open-source our benchmark at https://github.com/UCSC-VLAA/EarthWhere.
- Abstract(参考訳): 視覚言語モデル (VLM) は急速に進歩してきたが, 実生活における課題であり, 需要の大きい課題であるオープンワールド環境における画像的位置決め能力は, 包括的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
EarthWhereは、WhereCountry(国レベルの回答とパノラマを含む500の質問回答)とWhereStreet(オプションのWeb検索で多段階の推論を必要とする310の街路レベルの識別タスク)という、2つの補完的な位置情報スケールにまたがる810のグローバルな画像で構成されている。
評価には、座標の座標に k km (Acc@k) 内の位置精度、テキストの局所化に階層パススコアを用いる。
そこで本研究では,人間の検証した視覚的手がかりを用いた中間的推論連鎖と,各手がかりの余分な寄与に起因したシェープリー重み付けの思考スコアを明示的に評価することを提案する。
我々は、EarthWhereでWeb検索ツールを使用した13の最先端VLMをベンチマークし、様々な種類の最終回答精度と、校正されたモデル思考スコアを報告した。
ジェミニ2.5-Proは56.32%で最高の平均精度を達成し、最強のオープンウェイトモデルであるGLM-4.5Vは34.71%に達した。
視覚的手がかりが限定された場合,Web検索と推論は性能の向上を保証せず,モデルは地域バイアスを示し,特定の領域において,最大42.7%のスコアを達成している。
これらの知見は、バイアスを緩和し、ロバストできめ細かな局所化を達成するためのモデルの持続的な課題を浮き彫りにする。
ベンチマークはhttps://github.com/UCSC-VLAA/EarthWhere.comで公開しています。
関連論文リスト
- GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [32.342417136518286]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。
現在の評価手法には2つの大きな制限がある。
グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文 参考訳(メタデータ) (2025-09-04T15:52:04Z) - From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。
我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-03T06:04:33Z) - MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models [7.422346909538787]
MapEvalは、3つの異なるタスクにわたる基礎モデルを評価するために設計されたベンチマークである。
空間的関係、ナビゲーション、旅行計画、現実世界の地図の相互作用をカバーしている。
ロングコンテキスト推論、APIインタラクション、ビジュアルマップ分析を扱うモデルが必要です。
論文 参考訳(メタデータ) (2024-12-31T07:20:32Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。