論文の概要: TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.17667v1
- Date: Wed, 29 Nov 2023 14:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:08:44.416283
- Title: TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in
Large Language Models
- Title(参考訳): TimeBench: 大規模言語モデルにおける時間的推論能力の総合評価
- Authors: Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Haotian Wang,
Ming Liu, Bing Qin
- Abstract要約: 階層的時間的推論ベンチマークであるTimeBenchを提案する。
TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。
実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
- 参考スコア(独自算出の注目度): 31.143545117858704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding time is a pivotal aspect of human cognition, crucial in the
broader framework of grasping the intricacies of the world. Previous studies
typically focus on specific aspects of time, lacking a comprehensive temporal
reasoning benchmark. To address this issue, we propose TimeBench, a
comprehensive hierarchical temporal reasoning benchmark that covers a broad
spectrum of temporal reasoning phenomena, which provides a thorough evaluation
for investigating the temporal reasoning capabilities of large language models.
We conduct extensive experiments on popular LLMs, such as GPT-4, LLaMA2, and
Mistral, incorporating chain-of-thought prompting. Our experimental results
indicate a significant performance gap between the state-of-the-art LLMs and
humans, highlighting that there is still a considerable distance to cover in
temporal reasoning. We aspire for TimeBench to serve as a comprehensive
benchmark, fostering research in temporal reasoning for LLMs. Our resource is
available at https://github.com/zchuz/TimeBench
- Abstract(参考訳): 時間を理解することは、人間の認知の重要な側面であり、世界の複雑さを理解する幅広い枠組みにおいて不可欠である。
これまでの研究では、時間に関する特定の側面に注目し、包括的な時間的推論ベンチマークを欠いている。
この問題に対処するために,時間的推論現象の幅広いスペクトルをカバーする包括的な階層的時間的推論ベンチマークであるTimeBenchを提案する。
GPT-4, LLaMA2, Mistral などの一般的な LLM に対して, チェーン・オブ・シークレット・プロンプトを取り入れた広範な実験を行った。
実験の結果, 現状のLDMとヒトの間には, 時間的推論において, かなりの距離が存在していることが明らかとなった。
われわれは TimeBench を総合的なベンチマークとして利用し,LLM の時間的推論の研究を促進することを目指している。
私たちのリソースはhttps://github.com/zchuz/TimeBenchで利用可能です。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Timo: Towards Better Temporal Reasoning for Language Models [38.27548375148604]
時間に関する推論は、大言語モデルが世界を理解するために不可欠である。
私たちは、様々な時間的推論タスクを扱う普遍的なフレームワークを構築します。
時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。
論文 参考訳(メタデータ) (2024-06-20T10:52:14Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Back to the Future: Towards Explainable Temporal Reasoning with Large
Language Models [33.8108950744839]
そこで本稿では,コンテキストに基づいたイベント発生の予測を行うために,時間的推論を記述可能な最初のタスクを紹介する。
本研究では,時間的予測と説明の最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-10-02T10:35:23Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Towards Benchmarking and Improving the Temporal Reasoning Capability of
Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。
我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。
また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T08:44:41Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Temporal Reasoning on Implicit Events from Distant Supervision [91.20159064951487]
本稿では,暗黙的事象の理解度を評価する新しい時間的推論データセットを提案する。
我々は、暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に、最先端のモデルが苦労していることを発見した。
本稿では,大規模テキストからの遠隔監視信号を利用して終末時刻を推定する,ニューロシンボリックな時間的推論モデルSYMTIMEを提案する。
論文 参考訳(メタデータ) (2020-10-24T03:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。