論文の概要: GeoRC: A Benchmark for Geolocation Reasoning Chains
- arxiv url: http://arxiv.org/abs/2601.21278v1
- Date: Thu, 29 Jan 2026 05:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.588381
- Title: GeoRC: A Benchmark for Geolocation Reasoning Chains
- Title(参考訳): GeoRC:Geolocation Reasoning Chainsのベンチマーク
- Authors: Mohit Talreja, Joshua Diao, Jim Thannikary James, Radu Casapu, Tejas Santanam, Ethan Mendes, Alan Ritter, Wei Xu, James Hays,
- Abstract要約: 視覚言語モデル(VLM)は、写真のグローバルな位置を認識するのに長けている。
しかし、多くのVLMは、どの画像証拠が彼らの予測に繋がったかを説明するのに驚くほど悪い。
本稿では,位置推定チェーンの最初のベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 26.274136481111555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) are good at recognizing the global location of a photograph -- their geolocation prediction accuracy rivals the best human experts. But many VLMs are startlingly bad at explaining which image evidence led to their prediction, even when their location prediction is correct. The reasoning chains produced by VLMs frequently hallucinate scene attributes to support their location prediction (e.g. phantom writing, imagined infrastructure, misidentified flora). In this paper, we introduce the first benchmark for geolocation reasoning chains. We focus on the global location prediction task in the popular GeoGuessr game which draws from Google Street View spanning more than 100 countries. We collaborate with expert GeoGuessr players, including the reigning world champion, to produce 800 ground truth reasoning chains for 500 query scenes. These expert reasoning chains address hundreds of different discriminative visual attributes such as license plate shape, architecture, and soil properties to name just a few. We evaluate LLM-as-a-judge and VLM-as-a-judge strategies for scoring VLM-generated reasoning chains against our expert reasoning chains and find that Qwen 3 LLM-as-a-judge correlates best with human scoring. Our benchmark reveals that while large, closed-source VLMs such as Gemini and GPT 5 rival human experts at prediction locations, they still lag behind human experts when it comes to producing auditable reasoning chains. Open weights VLMs such as Llama and Qwen catastrophically fail on our benchmark -- they perform only slightly better than a baseline in which an LLM hallucinates a reasoning chain with oracle knowledge of the photo location but no visual information at all. We believe the gap between human experts and VLMs on this task points to VLM limitations at extracting fine-grained visual attributes from high resolution images.
- Abstract(参考訳): 視覚言語モデル(VLM)は、写真のグローバルな位置を認識するのに長けている。
しかし、多くのVLMは、位置予測が正しい場合でも、どの画像証拠が予測に繋がったかを説明するのにひどく悪い。
VLMが生成する推論連鎖は、しばしばシーン特性を幻覚させ、それらの位置予測(例えば、ファントム書き込み、想像されたインフラ、誤同定された植物相)をサポートする。
本稿では,位置推定チェーンの最初のベンチマークを紹介する。
われわれは、世界100か国以上をまたがるGoogleストリートビューから、人気のGeoGuessrゲームにおけるグローバルな位置予測タスクに焦点を当てている。
我々は、支配的な世界チャンピオンを含む専門家のGeoGuessrプレーヤーと協力し、500のクエリシーンで800の真理推論チェーンを生成します。
これらの専門家の推論チェーンは、ライセンスプレートの形状、建築、土壌特性など、数百の異なる視覚特性に対処する。
LLM-as-a-judge と VLM-as-a-judge を専門家の推論チェーンに対して評価し,Qwen 3 LLM-as-a-judge が人間の評価と相関していることを確認した。
我々のベンチマークによると、GeminiやGPT 5のような大規模でクローズドなVLMは、予測位置で人間の専門家と競合するが、監査可能な推論チェーンを作るという点では、まだ人間の専門家より遅れている。
オープンウェイトは、LlamaやQwenのようなVLMが我々のベンチマークで破滅的に失敗する -- LLMが写真の位置に関するオラクルの知識を持つ推論チェーンを幻覚させるベースラインよりもわずかに優れているが、視覚的な情報は全くない。
この課題における人間の専門家とVLMのギャップは、高解像度画像から微細な視覚特性を抽出する際のVLMの限界を示していると信じている。
関連論文リスト
- Mixing Expert Knowledge: Bring Human Thoughts Back To the Game of Go [74.28228642327726]
大規模言語モデル (LLM) は数学やコーディングなどの推論タスクにおいて例外的な性能を示した。
LoGosは、優れた一般的な推論能力を維持するだけでなく、自然言語でGoのゲームプレイも行う強力なLLMである。
LoGosは人間のプロプレイヤーに匹敵するパフォーマンスを達成し、既存のLLMをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-23T05:00:49Z) - GeoZero: Incentivizing Reasoning from Scratch on Geospatial Scenes [84.52881742231152]
マルチモーダル大規模言語モデル (MLLM) は地理空間的シーン理解の進展において急速な発展を遂げている。
近年、リモートセンシングMLLMの推論能力の向上が試みられ、典型的には、精巧にキュレートされたチェーン・オブ・シント(CoT)データによるコールドスタートトレーニングによって実現されている。
MLLMが事前に定義されたCoTの監督なしに地理空間推論を行うことを可能にするフレームワークであるGeoZeroを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:28:09Z) - Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities [12.46765303763981]
大きな言語モデル(LLM)は明示的なバイアスを軽減するために広範囲に調整されてきたが、事前学習データに根ざした暗黙のバイアスがしばしば現れる。
我々は、モデルが積極的に質問するときにどのように振る舞うかを研究する。
マルチターン推論タスクである20の質問ゲームは、この目的のために理想的なテストベッドとして機能する。
論文 参考訳(メタデータ) (2025-08-07T15:53:30Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Evaluating Precise Geolocation Inference Capabilities of Vision Language Models [0.0]
本稿では,Googleストリートビューから収集したベンチマークデータセットについて紹介する。
基礎モデルは単一画像の位置推定に基づいて評価され、その多くが300kmの中央値誤差を達成している。
さらに,補助具へのアクセスによりVLMの「エージェント」を評価し,最大30.6%の距離誤差を観察した。
論文 参考訳(メタデータ) (2025-02-20T09:59:28Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Granular Privacy Control for Geolocation with Vision Language Models [36.3455665044992]
GPTGeoChatと呼ばれる新しいベンチマークを開発し、ユーザとの位置情報対話を適度に行うビジョン言語モデルの能力をテストする。
我々は,室内アノテータとGPT-4v間の1,000の画像位置情報の会話を収集する。
位置情報が多すぎるかどうかを判断することで,GPT-4vの位置情報会話を適度に行う様々なVLMの能力を評価する。
論文 参考訳(メタデータ) (2024-07-06T04:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。