Fugu-MT 論文翻訳(概要): TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models

論文の概要: TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models

arxiv url: http://arxiv.org/abs/2311.17667v1
Date: Wed, 29 Nov 2023 14:30:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 21:08:44.416283
Title: TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models
Title（参考訳）: TimeBench: 大規模言語モデルにおける時間的推論能力の総合評価
Authors: Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Haotian Wang, Ming Liu, Bing Qin
Abstract要約: 階層的時間的推論ベンチマークであるTimeBenchを提案する。 TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
参考スコア（独自算出の注目度）: 31.143545117858704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding time is a pivotal aspect of human cognition, crucial in the broader framework of grasping the intricacies of the world. Previous studies typically focus on specific aspects of time, lacking a comprehensive temporal reasoning benchmark. To address this issue, we propose TimeBench, a comprehensive hierarchical temporal reasoning benchmark that covers a broad spectrum of temporal reasoning phenomena, which provides a thorough evaluation for investigating the temporal reasoning capabilities of large language models. We conduct extensive experiments on popular LLMs, such as GPT-4, LLaMA2, and Mistral, incorporating chain-of-thought prompting. Our experimental results indicate a significant performance gap between the state-of-the-art LLMs and humans, highlighting that there is still a considerable distance to cover in temporal reasoning. We aspire for TimeBench to serve as a comprehensive benchmark, fostering research in temporal reasoning for LLMs. Our resource is available at https://github.com/zchuz/TimeBench
Abstract（参考訳）: 時間を理解することは、人間の認知の重要な側面であり、世界の複雑さを理解する幅広い枠組みにおいて不可欠である。これまでの研究では、時間に関する特定の側面に注目し、包括的な時間的推論ベンチマークを欠いている。この問題に対処するために,時間的推論現象の幅広いスペクトルをカバーする包括的な階層的時間的推論ベンチマークであるTimeBenchを提案する。 GPT-4, LLaMA2, Mistral などの一般的な LLM に対して, チェーン・オブ・シークレット・プロンプトを取り入れた広範な実験を行った。実験の結果, 現状のLDMとヒトの間には, 時間的推論において, かなりの距離が存在していることが明らかとなった。われわれは TimeBench を総合的なベンチマークとして利用し,LLM の時間的推論の研究を促進することを目指している。私たちのリソースはhttps://github.com/zchuz/TimeBenchで利用可能です。

関連論文リスト

Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency [59.05753942719665]
本稿では,モデルのロバスト性を評価するために,時間的ロバスト性ベンチマーク(TemRobBench)を提案する。 16のLMMを評価した結果,従来の知識やテキストの文脈に頼りすぎていることが判明した。我々はパノラマ直接選好最適化(PanoDPO)を設計し、LMMが視覚的特徴と言語的特徴の両方を同時に取り入れることを奨励する。
論文参考訳（メタデータ） (2025-05-20T14:18:56Z)
TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios [26.668042778743835]
実世界のシナリオにおける時間的推論のためのベンチマークTIMEを提案する。 TIMEは38,522のQAペアで構成され、11のきめ細かいサブタスクを持つ3レベルをカバーする。推論モデルと非推論モデルについて広範な実験を行う。 TIME-Liteは人手による注釈付きサブセットで、将来の研究を奨励し、時間的推論における標準化された評価を行う。
論文参考訳（メタデータ） (2025-05-19T09:22:02Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Timo: Towards Better Temporal Reasoning for Language Models [38.27548375148604]
時間に関する推論は、大言語モデルが世界を理解するために不可欠である。私たちは、様々な時間的推論タスクを扱う普遍的なフレームワークを構築します。時間的推論を 7B と 13B スケールで最適化するモデルである Timo を開発した。
論文参考訳（メタデータ） (2024-06-20T10:52:14Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
Back to the Future: Towards Explainable Temporal Reasoning with Large Language Models [33.8108950744839]
そこで本稿では,コンテキストに基づいたイベント発生の予測を行うために,時間的推論を記述可能な最初のタスクを紹介する。本研究では,時間的予測と説明の最先端性能を実現する方法を示す。
論文参考訳（メタデータ） (2023-10-02T10:35:23Z)
Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文参考訳（メタデータ） (2023-09-29T16:36:39Z)
Towards Benchmarking and Improving the Temporal Reasoning Capability of Large Language Models [44.670550143705746]
本研究では,大規模言語モデルの時間的推論能力を評価するために,総合的な探索データセットテンプレートを導入する。我々のデータセットには3つの時間的推論レベルに関する質問が含まれている。また,大規模言語モデルの時間的推論能力を向上させるための新しい学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-15T08:44:41Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
Temporal Reasoning on Implicit Events from Distant Supervision [91.20159064951487]
本稿では,暗黙的事象の理解度を評価する新しい時間的推論データセットを提案する。我々は、暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に、最先端のモデルが苦労していることを発見した。本稿では,大規模テキストからの遠隔監視信号を利用して終末時刻を推定する,ニューロシンボリックな時間的推論モデルSYMTIMEを提案する。
論文参考訳（メタデータ） (2020-10-24T03:12:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。