論文の概要: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
- arxiv url: http://arxiv.org/abs/2407.03525v1
- Date: Wed, 3 Jul 2024 22:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:41:16.681724
- Title: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
- Title(参考訳): UnSeenTimeQA: タイムセンシティブな質問-LLMの記憶を超えた回答
- Authors: Md Nayem Uddin, Amir Saeidi, Divij Handa, Agastya Seth, Tran Cao Son, Eduardo Blanco, Steven R. Corman, Chitta Baral,
- Abstract要約: UnSeenTimeQAは、新しい時間に敏感な質問応答ベンチマークである。
これは、事実とWeb検索可能なクエリを避けることで、従来のTSQAベンチマークから切り離されている。
真の時間的推論を行うには、大きな言語モデルが必要である。
- 参考スコア(独自算出の注目度): 34.257914212541394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces UnSeenTimeQA, a novel time-sensitive question-answering (TSQA) benchmark that diverges from traditional TSQA benchmarks by avoiding factual and web-searchable queries. We present a series of time-sensitive event scenarios decoupled from real-world factual information. It requires large language models (LLMs) to engage in genuine temporal reasoning, disassociating from the knowledge acquired during the pre-training phase. Our evaluation of six open-source LLMs (ranging from 2B to 70B in size) and three closed-source LLMs reveal that the questions from the UnSeenTimeQA present substantial challenges. This indicates the models' difficulties in handling complex temporal reasoning scenarios. Additionally, we present several analyses shedding light on the models' performance in answering time-sensitive questions.
- Abstract(参考訳): 本稿では,従来のTSQAベンチマークから切り離して,実時間およびWeb検索可能なクエリを回避した新しいTSQAベンチマークであるUnSeenTimeQAを紹介する。
実世界の事実情報から切り離された一連の時間に敏感なイベントシナリオを提示する。
大きな言語モデル(LLM)が真の時間的推論に携わる必要があり、事前学習の段階で得られた知識とは無関係である。
我々は,UnSeenTimeQA の6つのオープンソース LLM (サイズ2Bから70B) と3つのクローズドソース LLM の評価を行った。
これは、複雑な時間的推論シナリオを扱う上で、モデルが困難であることを示している。
さらに、時間に敏感な質問に答えるために、モデルの性能に光を当てるいくつかの分析結果を示す。
関連論文リスト
- A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。
そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文 参考訳(メタデータ) (2024-11-09T00:35:29Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。
実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。