論文の概要: TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2505.12891v1
- Date: Mon, 19 May 2025 09:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.511371
- Title: TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios
- Title(参考訳): TIME:実世界のシナリオにおけるLLMの時間的推論のためのマルチレベルベンチマーク
- Authors: Shaohang Wei, Wei Li, Feifan Song, Wen Luo, Tianyi Zhuang, Haochen Tan, Zhijiang Guo, Houfeng Wang,
- Abstract要約: 実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。
TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。
推論モデルと非推論モデルについて広範な実験を行う。
TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
- 参考スコア(独自算出の注目度): 26.668042778743835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal reasoning is pivotal for Large Language Models (LLMs) to comprehend the real world. However, existing works neglect the real-world challenges for temporal reasoning: (1) intensive temporal information, (2) fast-changing event dynamics, and (3) complex temporal dependencies in social interactions. To bridge this gap, we propose a multi-level benchmark TIME, designed for temporal reasoning in real-world scenarios. TIME consists of 38,522 QA pairs, covering 3 levels with 11 fine-grained sub-tasks. This benchmark encompasses 3 sub-datasets reflecting different real-world challenges: TIME-Wiki, TIME-News, and TIME-Dial. We conduct extensive experiments on reasoning models and non-reasoning models. And we conducted an in-depth analysis of temporal reasoning performance across diverse real-world scenarios and tasks, and summarized the impact of test-time scaling on temporal reasoning capabilities. Additionally, we release TIME-Lite, a human-annotated subset to foster future research and standardized evaluation in temporal reasoning. The code is available at https://github.com/sylvain-wei/TIME , and the dataset is available at https://huggingface.co/datasets/SylvainWei/TIME .
- Abstract(参考訳): 時相推論は、Large Language Models (LLM) が現実世界を理解する上で重要な要素である。
しかし、既存の研究は、(1)集中的な時間情報、(2)急速に変化する事象のダイナミクス、(3)社会的相互作用における複雑な時間的依存など、時間的推論の現実的な課題を無視している。
このギャップを埋めるために,実世界のシナリオにおける時間的推論のためのマルチレベルベンチマークTIMEを提案する。
TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。
このベンチマークには、TIME-Wiki、TIME-News、TIME-Dialの3つのサブデータセットが含まれている。
推論モデルと非推論モデルについて広範な実験を行う。
実世界の様々なシナリオやタスクにおける時間的推論性能の詳細な分析を行い、時間的推論能力に対するテスト時間スケーリングの影響を要約した。
さらに,人手による注釈付きサブセットであるTIME-Liteをリリースし,今後の研究を奨励し,時間的推論における評価を標準化する。
コードはhttps://github.com/sylvain-wei/TIMEで、データセットはhttps://huggingface.co/datasets/SylvainWei/TIMEで入手できる。
関連論文リスト
- Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models [29.656403397725395]
階層的時間的推論ベンチマークであるTimeBenchを提案する。
TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。
実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T14:30:16Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。