論文の概要: Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?
- arxiv url: http://arxiv.org/abs/2406.09072v1
- Date: Thu, 13 Jun 2024 12:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:54:00.213669
- Title: Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?
- Title(参考訳): モーメントに生きる: 大規模言語モデルでGraspのコテンポラル推論は可能か?
- Authors: Zhaochen Su, Juntao Li, Jun Zhang, Tong Zhu, Xiaoye Qu, Pan Zhou, Yan Bowen, Yu Cheng, Min zhang,
- Abstract要約: 時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 70.19200858203388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal reasoning is fundamental for large language models (LLMs) to comprehend the world. Current temporal reasoning datasets are limited to questions about single or isolated events, falling short in mirroring the realistic temporal characteristics involving concurrent nature and intricate temporal interconnections. In this paper, we introduce CoTempQA, a comprehensive co-temporal Question Answering (QA) benchmark containing four co-temporal scenarios (Equal, Overlap, During, Mix) with 4,748 samples for evaluating the co-temporal comprehension and reasoning abilities of LLMs. Our extensive experiments reveal a significant gap between the performance of current LLMs and human-level reasoning on CoTempQA tasks. Even when enhanced with Chain of Thought (CoT) methodologies, models consistently struggle with our task. In our preliminary exploration, we discovered that mathematical reasoning plays a significant role in handling co-temporal events and proposed a strategy to boost LLMs' co-temporal reasoning from a mathematical perspective. We hope that our CoTempQA datasets will encourage further advancements in improving the co-temporal reasoning capabilities of LLMs. Our code is available at https://github.com/zhaochen0110/Cotempqa.
- Abstract(参考訳): 時間的推論は、世界を理解するための大きな言語モデル(LLM)の基本である。
現在の時間的推論データセットは、単一または孤立した事象に関する質問に限られており、同時性や複雑な時間的相互関係を含む現実的な時間的特性の反映に不足している。
本稿では,4つの時空間シナリオ(Equal, Overlap, During, Mix)を含む総合的時空間質問応答(QA)ベンチマークであるCoTempQAについて,LLMの時空間理解と推論能力を評価するための4,748のサンプルについて紹介する。
大規模な実験により,現在のLLMの性能と,CoTempQAタスクにおける人間レベルの推論との間に大きなギャップがあることが判明した。
Chain of Thought(CoT)方法論で強化されたとしても、モデルは我々のタスクに一貫して苦労します。
予備的な調査では, 数学的推論が時間的事象を扱う上で重要な役割を担い, 数学的観点からLLMの時間的推論を促進する戦略を提案した。
当社のCoTempQAデータセットは,LCMの時間的推論能力の向上にさらなる進歩を期待する。
私たちのコードはhttps://github.com/zhaochen0110/Cotempqa.comで公開されています。
関連論文リスト
- ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。
実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。
これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文 参考訳(メタデータ) (2024-12-09T18:55:56Z) - UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization [34.257914212541394]
本稿では,新しいデータ汚染のない質問応答ベンチマークUnSeenTimeQAを紹介する。
既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。
合成された事象に基づく時系列イベントシナリオを提示する。
論文 参考訳(メタデータ) (2024-07-03T22:02:07Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - TimeBench: A Comprehensive Evaluation of Temporal Reasoning Abilities in Large Language Models [29.656403397725395]
階層的時間的推論ベンチマークであるTimeBenchを提案する。
TimeBenchは、大規模な言語モデルの時間的推論能力を調べるための徹底的な評価を提供する。
実験結果から, 最先端のLDMと人間の間には, 顕著な性能差があることが示唆された。
論文 参考訳(メタデータ) (2023-11-29T14:30:16Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。