論文の概要: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
- arxiv url: http://arxiv.org/abs/2407.03525v3
- Date: Wed, 18 Dec 2024 20:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:45.728179
- Title: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
- Title(参考訳): UnSeenTimeQA: タイムセンシティブな質問-LLMの記憶を超えた回答
- Authors: Md Nayem Uddin, Amir Saeidi, Divij Handa, Agastya Seth, Tran Cao Son, Eduardo Blanco, Steven R. Corman, Chitta Baral,
- Abstract要約: 本稿では,新しいデータ汚染のない質問応答ベンチマークUnSeenTimeQAを紹介する。
既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。
合成された事象に基づく時系列イベントシナリオを提示する。
- 参考スコア(独自算出の注目度): 34.257914212541394
- License:
- Abstract: This paper introduces UnSeenTimeQA, a novel data contamination-free time-sensitive question-answering (TSQA) benchmark. It differs from existing TSQA benchmarks by avoiding web-searchable queries grounded in the real-world. We present a series of time-sensitive event scenarios based on synthetically generated facts. It requires large language models (LLMs) to engage in genuine temporal reasoning without depending on the factual knowledge acquired during the pre-training phase. We designed three types of time-sensitive questions to test LLMs' temporal reasoning abilities over sequential and parallel event occurrences. Our evaluation of five LLMs on synthetic fact-based TSQA reveals mixed results: while they perform well on simpler subsets, their overall performance remains inferior as compared to real-world fact-based TSQA. Error analysis of LLM-generated reasoning chains indicates that LLMs face difficulties in reasoning over long-range event dependencies and parallel event timelines that unfold concurrently.
- Abstract(参考訳): 本稿では,新しいデータ汚染のない時間依存質問応答(TSQA)ベンチマークUnSeenTimeQAを紹介する。
既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。
合成された事象に基づく時系列イベントシナリオを提示する。
大きな言語モデル(LLM)は、訓練前の段階で得られた事実知識に依存することなく、真の時間的推論を行う必要がある。
LLMの時間的推論能力を逐次的および並列な事象発生に対して検証するために,3種類の時間感性質問を設計した。
合成ファクトベースTSQAに対する5つのLCMの評価は、より単純なサブセット上では良好に機能するが、実際のファクトベースTSQAと比較して総合的な性能は劣っている。
LLMの生成した推論チェーンの誤り解析は、LLMが長距離イベント依存性と並列イベントタイムラインを同時に展開する推論において困難に直面していることを示している。
関連論文リスト
- Enhancing Temporal Sensitivity and Reasoning for Time-Sensitive Question Answering [23.98067169669452]
Time-Sensitive Question Answering (TSQA)は、特定の時間的文脈を効果的に活用することを要求する。
本稿では,時間的認知と推論を時間的情報認識の埋め込みとグラニュラコントラスト強化学習を通じて促進する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-25T13:13:21Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。
実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。
GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。
以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-02T00:59:07Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。