Fugu-MT 論文翻訳(概要): Where Do Vision-Language Models Fail? World Scale Analysis for Image Geolocalization

論文の概要: Where Do Vision-Language Models Fail? World Scale Analysis for Image Geolocalization

arxiv url: http://arxiv.org/abs/2604.16248v1
Date: Fri, 17 Apr 2026 17:09:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:20.020907
Title: Where Do Vision-Language Models Fail? World Scale Analysis for Image Geolocalization
Title（参考訳）: 視覚言語モデルはどこが機能しないのか? 画像地理化のための世界規模解析
Authors: Siddhant Bharadwaj, Ashish Vashist, Fahimul Aleem, Shruti Vyas,
Abstract要約: VLM(Vision-Language Models)は、マルチモーダルタスクにまたがる強力なゼロショット推論能力を示す。地上画像のみを用いた国レベルの画像位置情報化のための複数の最先端VLMの体系的評価を行う。
参考スコア（独自算出の注目度）: 3.713195826948382
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image geolocalization has traditionally been addressed through retrieval-based place recognition or geometry-based visual localization pipelines. Recent advances in Vision-Language Models (VLMs) have demonstrated strong zero-shot reasoning capabilities across multimodal tasks, yet their performance in geographic inference remains underexplored. In this work, we present a systematic evaluation of multiple state-of-the-art VLMs for country-level image geolocalization using ground-view imagery only. Instead of relying on image matching, GPS metadata, or task-specific training, we evaluate prompt-based country prediction in a zero-shot setting. The selected models are tested on three geographically diverse datasets to assess their robustness and generalization ability. Our results reveal substantial variation across models, highlighting the potential of semantic reasoning for coarse geolocalization and the limitations of current VLMs in capturing fine-grained geographic cues. This study provides the first focused comparison of modern VLMs for country-level geolocalization and establishes a foundation for future research at the intersection of multimodal reasoning and geographic understanding.
Abstract（参考訳）: 画像のジオローカライゼーションは、伝統的に、検索に基づく位置認識や、幾何学に基づく視覚的位置決めパイプラインを通じて対処されてきた。近年のVLM(Vision-Language Models)の進歩は、マルチモーダルタスクをまたいだ強力なゼロショット推論能力を示しているが、地理的推論の性能は未解明のままである。本研究では,地上画像のみを用いた国レベルの画像位置情報化のための複数の最先端VLMの体系的評価を行う。画像マッチングやGPSメタデータ、タスク固有のトレーニングに頼る代わりに、ゼロショット設定でプロンプトベースの国予測を評価する。選択されたモデルは、その堅牢性と一般化能力を評価するために、地理的に多様な3つのデータセットでテストされる。以上の結果から,大局的な地理的局所化のセマンティック推論の可能性や,微粒な地理的手がかりを捉える上での現在のVLMの限界が明らかとなった。本研究は,国レベルの地理的ローカライゼーションのための近代的VLMの比較を初めて実施し,マルチモーダル推論と地理的理解の交点における今後の研究基盤を確立するものである。

関連論文リスト

GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [21.941170274245223]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。現在の評価手法には2つの大きな制限がある。グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文参考訳（メタデータ） (2025-09-04T15:52:04Z)
From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文参考訳（メタデータ） (2025-08-03T06:04:33Z)
Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。 GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-06-17T16:07:58Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳（メタデータ） (2024-06-13T17:57:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。