論文の概要: From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01608v1
- Date: Sun, 03 Aug 2025 06:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.967225
- Title: From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models
- Title(参考訳): ピクセルからプレースへ:大規模言語モデルにおける画像ジオローカライズ能力評価のためのシステムベンチマーク
- Authors: Lingyao Li, Runlong Yu, Qikai Hu, Bowei Li, Min Deng, Yang Zhou, Xiaowei Jia,
- Abstract要約: 画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。
我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
- 参考スコア(独自算出の注目度): 14.178064117544082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image geolocalization, the task of identifying the geographic location depicted in an image, is important for applications in crisis response, digital forensics, and location-based intelligence. While recent advances in large language models (LLMs) offer new opportunities for visual reasoning, their ability to perform image geolocalization remains underexplored. In this study, we introduce a benchmark called IMAGEO-Bench that systematically evaluates accuracy, distance error, geospatial bias, and reasoning process. Our benchmark includes three diverse datasets covering global street scenes, points of interest (POIs) in the United States, and a private collection of unseen images. Through experiments on 10 state-of-the-art LLMs, including both open- and closed-source models, we reveal clear performance disparities, with closed-source models generally showing stronger reasoning. Importantly, we uncover geospatial biases as LLMs tend to perform better in high-resource regions (e.g., North America, Western Europe, and California) while exhibiting degraded performance in underrepresented areas. Regression diagnostics demonstrate that successful geolocalization is primarily dependent on recognizing urban settings, outdoor environments, street-level imagery, and identifiable landmarks. Overall, IMAGEO-Bench provides a rigorous lens into the spatial reasoning capabilities of LLMs and offers implications for building geolocation-aware AI systems.
- Abstract(参考訳): 画像中の地理的位置を識別するタスクである画像位置情報化は、危機対応、デジタル法医学、位置情報に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供するが、画像のジオローカライゼーションを行う能力はいまだ探索されていない。
本研究では, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを提案する。
私たちのベンチマークには、グローバルストリートシーンをカバーする3つの多様なデータセット、米国における関心点(POI)、目に見えない画像のプライベートコレクションが含まれています。
オープンソースモデルとクローズドソースモデルの両方を含む10の最先端LCMの実験を通して、クローズドソースモデルは一般的により強力な推論を示すため、明らかな性能格差を明らかにする。
重要な点として,LLMは高資源地域(北米,西ヨーロッパ,カリフォルニアなど)では性能が向上する傾向にあり,未表示地域では劣化した性能を示すため,地理空間バイアスが明らかになる。
回帰診断は、地理的ローカライゼーションの成功は、主に都市環境、屋外環境、ストリートレベルの画像、および識別可能なランドマークの認識に依存することを示した。
全体として、 imageO-Bench は LLM の空間的推論能力に厳密なレンズを提供し、位置認識型AIシステムを構築するための意味を提供する。
関連論文リスト
- GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文 参考訳(メタデータ) (2025-07-15T03:00:15Z) - Evaluation of Geolocation Capabilities of Multimodal Large Language Models and Analysis of Associated Privacy Risks [9.003350058345442]
MLLMは、視覚コンテンツのみに基づいて画像の位置を推測することができる。
これは、doxx、監視、その他のセキュリティ脅威を含む、プライバシー侵害の深刻なリスクを引き起こす。
最も先進的な視覚モデルは、1kmの範囲内で最大49%の精度でストリートレベルの画像の起源をローカライズすることができる。
論文 参考訳(メタデータ) (2025-06-30T03:05:30Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [27.848962405476108]
新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [11.704082783192467]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Image-Based Geolocation Using Large Vision-Language Models [19.071551941682063]
画像に基づく位置情報の精度を大幅に向上する革新的なフレームワークであるToolを紹介した。
ツールは体系的なチェーン・オブ・シント(CoT)アプローチを採用し、人間のジオゲスティング戦略を模倣する。
GeoGuessrゲームの平均スコアは4550.5で85.37%で、高精度な位置情報予測を行う。
論文 参考訳(メタデータ) (2024-08-18T13:39:43Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。