Fugu-MT 論文翻訳(概要): GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction

論文の概要: GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction

arxiv url: http://arxiv.org/abs/2601.13207v1
Date: Mon, 19 Jan 2026 16:34:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.972291
Title: GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction
Title（参考訳）: GTPred: ジオローカライゼーションとタイム・オブ・キャプチャ予測のためのベンチマークMLLM
Authors: Jinnao Li, Zijian Chen, Tingzhu Chen, Changbo Wang,
Abstract要約: 時空間予測のための新しいベンチマークであるGTPredを紹介する。我々は年と階層的な位置配列マッチングを併用してMLLM予測を評価する。また,時間情報の導入は位置情報の推測性能を著しく向上させることを示した。
参考スコア（独自算出の注目度）: 21.94131531384186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Geo-localization aims to infer the geographic location where an image was captured using observable visual evidence. Traditional methods achieve impressive results through large-scale training on massive image corpora. With the emergence of multi-modal large language models (MLLMs), recent studies have explored their applications in geo-localization, benefiting from improved accuracy and interpretability. However, existing benchmarks largely ignore the temporal information inherent in images, which can further constrain the location. To bridge this gap, we introduce GTPred, a novel benchmark for geo-temporal prediction. GTPred comprises 370 globally distributed images spanning over 120 years. We evaluate MLLM predictions by jointly considering year and hierarchical location sequence matching, and further assess intermediate reasoning chains using meticulously annotated ground-truth reasoning processes. Experiments on 8 proprietary and 7 open-source MLLMs show that, despite strong visual perception, current models remain limited in world knowledge and geo-temporal reasoning. Results also demonstrate that incorporating temporal information significantly enhances location inference performance.
Abstract（参考訳）: ジオローカライゼーションは、観測可能な視覚的証拠を用いて画像が撮影された場所を推測することを目的としている。従来の方法では、大規模な画像コーパスの大規模トレーニングによって、印象的な結果が得られる。マルチモーダルな大言語モデル (MLLM) の出現に伴い、最近の研究は、精度の向上と解釈可能性の向上により、地理的ローカライゼーションにおけるそれらの応用を探求している。しかし、既存のベンチマークでは画像に固有の時間的情報はほとんど無視されており、位置をさらに制限することができる。このギャップを埋めるために、時空間予測のための新しいベンチマークであるGTPredを導入する。 GTPredは、120年以上にわたる世界規模の370の画像で構成されている。我々は,MLLM予測を年次および階層的な位置列マッチングを併用して評価し,微妙に注釈付けされた接地トラス推論プロセスを用いて中間的推論連鎖を評価する。 8つのプロプライエタリなMLLMと7つのオープンソースMLLMの実験は、強い視覚的認識にもかかわらず、現在のモデルは世界の知識と時空間的推論に限られていることを示している。また,時間情報の導入は位置情報の推測性能を著しく向上させることを示した。

関連論文リスト

From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文参考訳（メタデータ） (2025-08-03T06:04:33Z)
GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space [48.09196906704634]
GT-Locは、画像のキャプチャ時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索ベースの手法である。提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
論文参考訳（メタデータ） (2025-07-14T16:54:57Z)
Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。 GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-06-17T16:07:58Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
GeoLLM: Extracting Geospatial Knowledge from Large Language Models [49.20315582673223]
大規模言語モデルから地理空間的知識を効果的に抽出する新しい手法であるGeoLLMを提案する。我々は、人口密度や経済生活の計測など、国際社会への関心の中心となる複数の課題にまたがるアプローチの有用性を実証する。実験の結果, LLMは試料効率が高く, 地理空間情報に富み, 世界中のロバストであることがわかった。
論文参考訳（メタデータ） (2023-10-10T00:03:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。