Fugu-MT 論文翻訳(概要): UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization

論文の概要: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization

arxiv url: http://arxiv.org/abs/2407.03525v2
Date: Thu, 17 Oct 2024 21:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.399703
Title: UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization
Title（参考訳）: UnSeenTimeQA: タイムセンシティブな質問-LLMの記憶を超えた回答
Authors: Md Nayem Uddin, Amir Saeidi, Divij Handa, Agastya Seth, Tran Cao Son, Eduardo Blanco, Steven R. Corman, Chitta Baral,
Abstract要約: 本稿では,新しいデータ汚染のない質問応答ベンチマークUnSeenTimeQAを紹介する。既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。大きな言語モデル(LLM)は、訓練前の段階で得られた事実知識に依存することなく、真の時間的推論を行う必要がある。
参考スコア（独自算出の注目度）: 34.257914212541394
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces UnSeenTimeQA, a novel data contamination free time-sensitive question-answering (TSQA) benchmark. It differs from existing TSQA benchmarks by avoiding web-searchable queries grounded in the real-world. We present a series of time-sensitive event scenarios based on synthetically generated facts. It requires large language models (LLMs) to engage in genuine temporal reasoning without depending on the factual knowledge acquired during the pre-training phase. We designed three types of time-sensitive questions to test LLMs' temporal reasoning abilities over sequential and parallel event occurrences. Our evaluation of five LLMs shows that their performance on synthetic fact-based TSQA is inferior as compared to their performance on real-world fact-based TSQA. Further analysis of LLM-generated reasoning chains indicates difficulty in capturing long-range event dependencies and the effect of interlinked events in synthetic scenarios.
Abstract（参考訳）: 本稿では、新しいデータ汚染のない時間依存質問応答(TSQA)ベンチマークUnSeenTimeQAを紹介する。既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。合成された事象に基づく時系列イベントシナリオを提示する。大きな言語モデル(LLM)は、訓練前の段階で得られた事実知識に依存することなく、真の時間的推論を行う必要がある。 LLMの時間的推論能力を逐次的および並列な事象発生に対して検証するために,3種類の時間感性質問を設計した。 5つのLCMを評価した結果,実世界の実物に基づくTSQAと比較して,合成事実に基づくTSQAの性能は劣っていることがわかった。 LLMが生成する推論連鎖のさらなる解析は、長距離イベント依存を捉えるのが困難であることと、合成シナリオにおける相互リンクイベントの効果を示している。

関連論文リスト

TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。 TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文参考訳（メタデータ） (2026-01-30T17:28:56Z)
Chain-of-thought Reviewing and Correction for Time Series Question Answering [22.889720488678076]
本稿では,時系列質問応答の明示的な補正機構を備えた多段階推論を行うT3LLMを提案する。このフレームワーク内では、作業者は構造化されたプロンプトの下で段階的思考連鎖(CoT)を生成し、レビュアーは推論を検査し、誤ったステップを特定し、修正的なコメントを提供する。複数の実世界のTSQAベンチマークの実験により、T3LLMは強力なLLMベースのベースラインに対して最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-12-27T15:54:18Z)
Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models [38.12930048471948]
TDBenchは、タイムセンシティブな質問-回答ペアを体系的に構築する新しいベンチマークである。時間精度と呼ばれるきめ細かい評価基準は、モデル説明における時間参照の有効性を評価する。現代のLarge Language Modelsの実験では、スケーラブルで包括的なTSQA評価を実現する方法が示されています。
論文参考訳（メタデータ） (2025-08-04T04:27:06Z)
StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T10:54:31Z)
LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文参考訳（メタデータ） (2025-06-06T05:14:04Z)
ExAnte: A Benchmark for Ex-Ante Inference in Large Language Models [12.948099229475265]
大型言語モデル (LLM) は、元Antの推論において重大な課題に直面している。時間的カットオフを強制する明示的なプロンプトであっても、LLMは指定されたカットオフを超えた事象の内在的な知識に影響された出力をしばしば生成する。本稿では、このような時間的制約に固執しながら、LCMの推論能力を評価するための新しいタスクとベンチマークを提案する。
論文参考訳（メタデータ） (2025-05-26T05:39:57Z)
LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文参考訳（メタデータ） (2025-03-12T11:45:11Z)
A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文参考訳（メタデータ） (2024-11-09T00:35:29Z)
Enhancing Temporal Sensitivity and Reasoning for Time-Sensitive Question Answering [23.98067169669452]
Time-Sensitive Question Answering (TSQA)は、特定の時間的文脈を効果的に活用することを要求する。本稿では,時間的認知と推論を時間的情報認識の埋め込みとグラニュラコントラスト強化学習を通じて促進する新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-09-25T13:13:21Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文参考訳（メタデータ） (2024-06-13T14:31:19Z)
Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。 CoTempQAは4つの時間的シナリオを含むベンチマークである。実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文参考訳（メタデータ） (2024-06-13T12:56:21Z)
Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文参考訳（メタデータ） (2024-02-19T08:12:30Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文参考訳（メタデータ） (2023-11-16T11:49:29Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
TRAM: Benchmarking Temporal Reasoning for Large Language Models [12.112914393948415]
10個のデータセットからなる時間的推論ベンチマークであるTRAMを紹介する。 GPT-4やLlama2のような一般的な言語モデルをゼロショットや少数ショットのシナリオで評価する。以上の結果から,最も優れたモデルラグは人的パフォーマンスに大きく遅れていることが示唆された。
論文参考訳（メタデータ） (2023-10-02T00:59:07Z)
Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文参考訳（メタデータ） (2023-05-24T10:57:53Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。