論文の概要: TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.17667v1
- Date: Wed, 29 Nov 2023 14:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:08:44.416283
- Title: TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in
Large Language Models
- Title(参考訳): TimeBench: 大規模言語モデルにおける時間的推論能力の総合評価
- Authors: Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Haotian Wang,
Ming Liu, Bing Qin
- Abstract要約: 階層的時間的推論ベンチマークであるTimeBenchを提案する。
TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。
実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
- 参考スコア(独自算出の注目度): 31.143545117858704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding time is a pivotal aspect of human cognition, crucial in the
broader framework of grasping the intricacies of the world. Previous studies
typically focus on specific aspects of time, lacking a comprehensive temporal
reasoning benchmark. To address this issue, we propose TimeBench, a
comprehensive hierarchical temporal reasoning benchmark that covers a broad
spectrum of temporal reasoning phenomena, which provides a thorough evaluation
for investigating the temporal reasoning capabilities of large language models.
We conduct extensive experiments on popular LLMs, such as GPT-4, LLaMA2, and
Mistral, incorporating chain-of-thought prompting. Our experimental results
indicate a significant performance gap between the state-of-the-art LLMs and
humans, highlighting that there is still a considerable distance to cover in
temporal reasoning. We aspire for TimeBench to serve as a comprehensive
benchmark, fostering research in temporal reasoning for LLMs. Our resource is
available at https://github.com/zchuz/TimeBench
- Abstract(参考訳): 時間を理解することは、人間の認知の重要な側面であり、世界の複雑さを理解する幅広い枠組みにおいて不可欠である。
これまでの研究では、時間に関する特定の側面に注目し、包括的な時間的推論ベンチマークを欠いている。
この問題に対処するために,時間的推論現象の幅広いスペクトルをカバーする包括的な階層的時間的推論ベンチマークであるTimeBenchを提案する。
GPT-4, LLaMA2, Mistral などの一般的な LLM に対して, チェーン・オブ・シークレット・プロンプトを取り入れた広範な実験を行った。
実験の結果, 現状のLDMとヒトの間には, 時間的推論において, かなりの距離が存在していることが明らかとなった。
われわれは TimeBench を総合的なベンチマークとして利用し,LLM の時間的推論の研究を促進することを目指している。
私たちのリソースはhttps://github.com/zchuz/TimeBenchで利用可能です。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Towards Robust Temporal Reasoning of Large Language Models via a
Multi-Hop QA Dataset and Pseudo-Instruction Tuning [82.62140347732284]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - MenatQA: A New Dataset for Testing the Temporal Comprehension and
Reasoning Abilities of Large Language Models [17.322480769274062]
大規模言語モデル(LLM)は、多くの自然言語処理(NLP)タスクにおいてほぼ飽和した性能を示している。
本稿では,LLMの時間的理解と推論能力を評価するために,合計2,853個のサンプルを用いた多感性因子時間QA(MenatQA)を構築した。
論文 参考訳(メタデータ) (2023-10-08T13:19:52Z) - Back to the Future: Towards Explainable Temporal Reasoning with Large
Language Models [33.8108950744839]
そこで本稿では,コンテキストに基づいたイベント発生の予測を行うために,時間的推論を記述可能な最初のタスクを紹介する。
本研究では,時間的予測と説明の最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2023-10-02T10:35:23Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [14.30980373935713]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
一般的な大言語モデル(LLM)を用いて広範囲な評価を行う。
以上の結果から,これらのモデルが時間的推論タスクにおいて,人間のパフォーマンスに追随していることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - Unlocking Temporal Question Answering for Large Language Models Using
Code Execution [38.945784849917004]
大規模言語モデル(LLM)は自然言語処理(NLP)において大きな進歩を遂げている。
本稿では,LLMの抽出能力とPythonソルバの論理的推論能力を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Temporal Reasoning on Implicit Events from Distant Supervision [91.20159064951487]
本稿では,暗黙的事象の理解度を評価する新しい時間的推論データセットを提案する。
我々は、暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に、最先端のモデルが苦労していることを発見した。
本稿では,大規模テキストからの遠隔監視信号を利用して終末時刻を推定する,ニューロシンボリックな時間的推論モデルSYMTIMEを提案する。
論文 参考訳(メタデータ) (2020-10-24T03:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。