論文の概要: GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction
- arxiv url: http://arxiv.org/abs/2601.13207v1
- Date: Mon, 19 Jan 2026 16:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.972291
- Title: GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction
- Title(参考訳): GTPred: ジオローカライゼーションとタイム・オブ・キャプチャ予測のためのベンチマークMLLM
- Authors: Jinnao Li, Zijian Chen, Tingzhu Chen, Changbo Wang,
- Abstract要約: 時空間予測のための新しいベンチマークであるGTPredを紹介する。
我々は年と階層的な位置配列マッチングを併用してMLLM予測を評価する。
また,時間情報の導入は位置情報の推測性能を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 21.94131531384186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geo-localization aims to infer the geographic location where an image was captured using observable visual evidence. Traditional methods achieve impressive results through large-scale training on massive image corpora. With the emergence of multi-modal large language models (MLLMs), recent studies have explored their applications in geo-localization, benefiting from improved accuracy and interpretability. However, existing benchmarks largely ignore the temporal information inherent in images, which can further constrain the location. To bridge this gap, we introduce GTPred, a novel benchmark for geo-temporal prediction. GTPred comprises 370 globally distributed images spanning over 120 years. We evaluate MLLM predictions by jointly considering year and hierarchical location sequence matching, and further assess intermediate reasoning chains using meticulously annotated ground-truth reasoning processes. Experiments on 8 proprietary and 7 open-source MLLMs show that, despite strong visual perception, current models remain limited in world knowledge and geo-temporal reasoning. Results also demonstrate that incorporating temporal information significantly enhances location inference performance.
- Abstract(参考訳): ジオローカライゼーションは、観測可能な視覚的証拠を用いて画像が撮影された場所を推測することを目的としている。
従来の方法では、大規模な画像コーパスの大規模トレーニングによって、印象的な結果が得られる。
マルチモーダルな大言語モデル (MLLM) の出現に伴い、最近の研究は、精度の向上と解釈可能性の向上により、地理的ローカライゼーションにおけるそれらの応用を探求している。
しかし、既存のベンチマークでは画像に固有の時間的情報はほとんど無視されており、位置をさらに制限することができる。
このギャップを埋めるために、時空間予測のための新しいベンチマークであるGTPredを導入する。
GTPredは、120年以上にわたる世界規模の370の画像で構成されている。
我々は,MLLM予測を年次および階層的な位置列マッチングを併用して評価し,微妙に注釈付けされた接地トラス推論プロセスを用いて中間的推論連鎖を評価する。
8つのプロプライエタリなMLLMと7つのオープンソースMLLMの実験は、強い視覚的認識にもかかわらず、現在のモデルは世界の知識と時空間的推論に限られていることを示している。
また,時間情報の導入は位置情報の推測性能を著しく向上させることを示した。
関連論文リスト
- Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - GeoArena: An Open Platform for Benchmarking Large Vision-language Models on WorldWide Image Geolocalization [21.941170274245223]
画像のジオローカライゼーションは、地球上のどこでも撮影された画像の地理的位置を予測することを目的としている。
現在の評価手法には2つの大きな制限がある。
グローバルな画像位置決めタスク上でLVLMを評価するための,最初のオープンプラットフォームであるGeoArenaを提案する。
論文 参考訳(メタデータ) (2025-09-04T15:52:04Z) - From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。
我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-03T06:04:33Z) - GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space [48.09196906704634]
GT-Locは、画像のキャプチャ時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索ベースの手法である。
提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
論文 参考訳(メタデータ) (2025-07-14T16:54:57Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [20.788130896943663]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。
我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。
実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文 参考訳(メタデータ) (2023-10-10T00:03:23Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。