論文の概要: TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
- arxiv url: http://arxiv.org/abs/2603.06687v1
- Date: Wed, 04 Mar 2026 07:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.797688
- Title: TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings
- Title(参考訳): TimeSpot: リアルタイム設定における視覚言語モデルのジオテンポラル理解のベンチマーク
- Authors: Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez,
- Abstract要約: 視覚言語モデルにおける実世界の時空間推論を評価するためのベンチマークであるTimeSpotを紹介する。
TimeSpotは80か国から1,455の地上レベルの画像で構成されている。
視覚的証拠から直接、時間的属性と地理的属性の構造化予測が必要である。
また、現実世界の不確実性の下で物理的妥当性をテストする空間的時間的推論タスクも含んでいる。
- 参考スコア(独自算出の注目度): 10.091610297997613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geo-temporal understanding, the ability to infer location, time, and contextual properties from visual input alone, underpins applications such as disaster management, traffic planning, embodied navigation, world modeling, and geography education. Although recent vision-language models (VLMs) have advanced image geo-localization using cues like landmarks and road signs, their ability to reason about temporal signals and physically grounded spatial cues remains limited. To address this gap, we introduce TimeSpot, a benchmark for evaluating real-world geo-temporal reasoning in VLMs. TimeSpot comprises 1,455 ground-level images from 80 countries and requires structured prediction of temporal attributes (season, month, time of day, daylight phase) and geographic attributes (continent, country, climate zone, environment type, latitude-longitude) directly from visual evidence. It also includes spatial-temporal reasoning tasks that test physical plausibility under real-world uncertainty. Evaluations of state-of-the-art open- and closed-source VLMs show low performance, particularly for temporal inference. While supervised fine-tuning yields improvements, results remain insufficient, highlighting the need for new methods to achieve robust, physically grounded geo-temporal understanding. TimeSpot is available at: https://TimeSpot-GT.github.io.
- Abstract(参考訳): 地理的時間的理解、視覚的な入力だけで位置、時間、文脈的特性を推測する能力は、災害管理、交通計画、具体的ナビゲーション、世界モデリング、地理教育などの応用を支えている。
近年の視覚言語モデル (VLM) ではランドマークや道路標識などを用いた画像位置定位が進んでいるが、時間的信号や物理的に接地された空間的手がかりを推論する能力は限られている。
このギャップに対処するために、VLMにおける実世界の時空間推論を評価するベンチマークであるTimeSpotを紹介する。
TimeSpotは80か国1,455の地上レベルの画像で構成されており、視覚的証拠から直接、時間的属性(季節、月、日時、日中)と地理的属性(大陸、国、気候帯、環境タイプ、緯度)を構造化する必要がある。
また、現実世界の不確実性の下で物理的妥当性をテストする空間的時間的推論タスクも含んでいる。
最先端のオープンソースVLMおよびクローズドソースVLMの評価は、特に時間的推測において低い性能を示す。
教師付き微調整は改善するが、その結果は依然として不十分であり、堅牢で物理的に根ざした時間的理解を達成するための新しい方法の必要性を強調している。
TimeSpot は https://TimeSpot-GT.github.io で利用可能である。
関連論文リスト
- GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction [21.94131531384186]
時空間予測のための新しいベンチマークであるGTPredを紹介する。
我々は年と階層的な位置配列マッチングを併用してMLLM予測を評価する。
また,時間情報の導入は位置情報の推測性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2026-01-19T16:34:25Z) - GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space [48.09196906704634]
GT-Locは、画像のキャプチャ時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索ベースの手法である。
提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
論文 参考訳(メタデータ) (2025-07-14T16:54:57Z) - Around the World in 24 Hours: Probing LLM Knowledge of Time and Place [18.17538075862074]
本稿では,言語モデルが時間と空間とともに共同で推論できる能力について,初めて評価する。
時間的および地理的知識の異なる組み合わせに対して、3つの異なるモデルファミリーの8つのオープンチャットモデルを評価する。
特定の地理的領域と性能の明確な相関関係は見つからない。
論文 参考訳(メタデータ) (2025-06-04T14:14:28Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。