Fugu-MT 論文翻訳(概要): UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization

論文の概要: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization

arxiv url: http://arxiv.org/abs/2407.03525v1
Date: Wed, 3 Jul 2024 22:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 19:41:16.681724
Title: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
Title（参考訳）: UnSeenTimeQA: タイムセンシティブな質問-LLMの記憶を超えた回答
Authors: Md Nayem Uddin, Amir Saeidi, Divij Handa, Agastya Seth, Tran Cao Son, Eduardo Blanco, Steven R. Corman, Chitta Baral,
Abstract要約: UnSeenTimeQAは、新しい時間に敏感な質問応答ベンチマークである。これは、事実とWeb検索可能なクエリを避けることで、従来のTSQAベンチマークから切り離されている。真の時間的推論を行うには、大きな言語モデルが必要である。
参考スコア（独自算出の注目度）: 34.257914212541394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces UnSeenTimeQA, a novel time-sensitive question-answering (TSQA) benchmark that diverges from traditional TSQA benchmarks by avoiding factual and web-searchable queries. We present a series of time-sensitive event scenarios decoupled from real-world factual information. It requires large language models (LLMs) to engage in genuine temporal reasoning, disassociating from the knowledge acquired during the pre-training phase. Our evaluation of six open-source LLMs (ranging from 2B to 70B in size) and three closed-source LLMs reveal that the questions from the UnSeenTimeQA present substantial challenges. This indicates the models' difficulties in handling complex temporal reasoning scenarios. Additionally, we present several analyses shedding light on the models' performance in answering time-sensitive questions.
Abstract（参考訳）: 本稿では,従来のTSQAベンチマークから切り離して,実時間およびWeb検索可能なクエリを回避した新しいTSQAベンチマークであるUnSeenTimeQAを紹介する。実世界の事実情報から切り離された一連の時間に敏感なイベントシナリオを提示する。大きな言語モデル(LLM)が真の時間的推論に携わる必要があり、事前学習の段階で得られた知識とは無関係である。我々は,UnSeenTimeQA の6つのオープンソース LLM (サイズ2Bから70B) と3つのクローズドソース LLM の評価を行った。これは、複雑な時間的推論シナリオを扱う上で、モデルが困難であることを示している。さらに、時間に敏感な質問に答えるために、モデルの性能に光を当てるいくつかの分析結果を示す。

関連論文リスト

Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models [38.12930048471948]
TDBenchは、タイムセンシティブな質問-回答ペアを体系的に構築する新しいベンチマークである。時間精度と呼ばれるきめ細かい評価基準は、モデル説明における時間参照の有効性を評価する。現代のLarge Language Modelsの実験では、スケーラブルで包括的なTSQA評価を実現する方法が示されています。
論文参考訳（メタデータ） (2025-08-04T04:27:06Z)
StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T10:54:31Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文参考訳（メタデータ） (2025-05-26T05:39:57Z)
LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文参考訳（メタデータ） (2025-03-12T11:45:11Z)
A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文参考訳（メタデータ） (2024-11-09T00:35:29Z)
Enhancing Temporal Sensitivity and Reasoning for Time-Sensitive Question Answering [23.98067169669452]
Time-Sensitive Question Answering (TSQA)は、特定の時間的文脈を効果的に活用することを要求する。本稿では,時間的認知と推論を時間的情報認識の埋め込みとグラニュラコントラスト強化学習を通じて促進する新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-09-25T13:13:21Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文参考訳（メタデータ） (2024-06-13T14:31:19Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文参考訳（メタデータ） (2024-02-19T08:12:30Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。