論文の概要: A Dataset for Spatiotemporal-Sensitive POI Question Answering
- arxiv url: http://arxiv.org/abs/2505.10928v1
- Date: Fri, 16 May 2025 07:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.200523
- Title: A Dataset for Spatiotemporal-Sensitive POI Question Answering
- Title(参考訳): 時空間感性質問応答のためのデータセット
- Authors: Xiao Han, Dayan Pan, Xiangyu Zhao, Xuyuan Hu, Zhaolin Deng, Xiangjie Kong, Guojiang Shen,
- Abstract要約: QuestionAnswering (QA) には十分な時間的センシティブな質問がなく、モデルの時間的推論能力を評価するのに不十分である。
私たちはPoint of Interest(POI)を中心とした新しいデータセットPOI-QAを紹介します。
私たちのデータセットは、状態レベルの依存関係を解析し、状態ペアをナビゲートするモデルに挑戦します。
POI-QAは、時間力学に敏感なアルゴリズムを進化させるための堅牢なベンチマークである。
- 参考スコア(独自算出の注目度): 22.588402808121348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatiotemporal relationships are critical in data science, as many prediction and reasoning tasks require analysis across both spatial and temporal dimensions--for instance, navigating an unfamiliar city involves planning itineraries that sequence locations and timing cultural experiences. However, existing Question-Answering (QA) datasets lack sufficient spatiotemporal-sensitive questions, making them inadequate benchmarks for evaluating models' spatiotemporal reasoning capabilities. To address this gap, we introduce POI-QA, a novel spatiotemporal-sensitive QA dataset centered on Point of Interest (POI), constructed through three key steps: mining and aligning open-source vehicle trajectory data from GAIA with high-precision geographic POI data, rigorous manual validation of noisy spatiotemporal facts, and generating bilingual (Chinese/English) QA pairs that reflect human-understandable spatiotemporal reasoning tasks. Our dataset challenges models to parse complex spatiotemporal dependencies, and evaluations of state-of-the-art multilingual LLMs (e.g., Qwen2.5-7B, Llama3.1-8B) reveal stark limitations: even the top-performing model (Qwen2.5-7B fine-tuned with RAG+LoRA) achieves a top 10 Hit Ratio (HR@10) of only 0.41 on the easiest task, far below human performance at 0.56. This underscores persistent weaknesses in LLMs' ability to perform consistent spatiotemporal reasoning, while highlighting POI-QA as a robust benchmark to advance algorithms sensitive to spatiotemporal dynamics. The dataset is publicly available at https://www.kaggle.com/ds/7394666.
- Abstract(参考訳): 時空間関係はデータサイエンスにおいて重要であり、多くの予測と推論タスクは空間次元と時間次元の両方の分析を必要とする。
しかし、既存のQAデータセットには十分な時空間感度の質問がないため、時空間推論能力を評価するためのベンチマークが不十分である。
このギャップに対処するため,POI(Point of Interest)を中心に構築された新しい時空間感性QAデータセットであるPOI-QAを導入する。これは,GAIAからのオープンソース車両軌跡データを高精度な地理POIデータを用いてマイニングし整合させること,ノイズのある時空間事実の厳密な手動検証,および人間の理解可能な時空間推論タスクを反映したバイリンガル(中国語/英語)QAペアの生成である。
我々のデータセットは、複雑な時空間依存性を解析するためのモデルに挑戦し、最先端の多言語LLM(例えば、Qwen2.5-7B、Llama3.1-8B)の評価は、飢えの限界を明らかにしている。
このことは、LLMが一貫した時空間推論を行う能力の持続的な弱点を浮き彫りにし、時空間力学に敏感なアルゴリズムを前進させる堅牢なベンチマークとしてPOI-QAを強調した。
データセットはhttps://www.kaggle.com/ds/7394666で公開されている。
関連論文リスト
- ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Geode: A Zero-shot Geospatial Question-Answering Agent with Explicit Reasoning and Precise Spatio-Temporal Retrieval [0.0]
本研究では,ゼロショット地理空間的質問応答タスクを高精度に処理するための先駆的システムを提案する。
当社のアプローチは,現在の大規模言語モデルの限界に対処する上で,大幅な改善を図っている。
論文 参考訳(メタデータ) (2024-06-26T21:59:54Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Spatial-temporal Forecasting for Regions without Observations [13.805203053973772]
本研究では,歴史的観察を伴わない関心領域の時空間予測について検討した。
タスクに対してSTSMというモデルを提案する。
私たちの重要な洞察は、関心のある領域に類似している場所から学ぶことです。
論文 参考訳(メタデータ) (2024-01-19T06:26:05Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Spatiotemporal k-means [39.98633724527769]
マルチスケールクラスタを解析できるk-means (STk) と呼ばれる2つの時間クラスタリング手法を提案する。
我々は、STkMがより複雑な機械学習タスク、特にビデオにおける関心の検出と追跡の教師なし領域にどのように拡張できるかを示す。
論文 参考訳(メタデータ) (2022-11-10T04:40:31Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。