論文の概要: Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.02045v1
- Date: Mon, 04 Aug 2025 04:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.17124
- Title: Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models
- Title(参考訳): 大規模言語モデルにおける時間知覚的質問応答の体系的評価のための時間データベースのハーネス化
- Authors: Soyeon Kim, Jindong Wang, Xing Xie, Steven Euijong Whang,
- Abstract要約: TDBenchは、タイムセンシティブな質問-回答ペアを体系的に構築する新しいベンチマークである。
時間精度と呼ばれるきめ細かい評価基準は、モデル説明における時間参照の有効性を評価する。
現代のLarge Language Modelsの実験では、スケーラブルで包括的なTSQA評価を実現する方法が示されています。
- 参考スコア(独自算出の注目度): 38.12930048471948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facts evolve over time, making it essential for Large Language Models (LLMs) to handle time-sensitive factual knowledge accurately and reliably. While factual Time-Sensitive Question-Answering (TSQA) tasks have been widely studied, existing benchmarks often rely on manual curation or a small, fixed set of predefined templates, which restricts scalable and comprehensive TSQA evaluation. To address these challenges, we propose TDBench, a new benchmark that systematically constructs TSQA pairs by harnessing temporal databases and database techniques such as temporal SQL and functional dependencies. We also introduce a fine-grained evaluation metric called time accuracy, which assesses the validity of time references in model explanations alongside traditional answer accuracy to enable a more reliable TSQA evaluation. Extensive experiments on contemporary LLMs show how \ours{} enables scalable and comprehensive TSQA evaluation while reducing the reliance on human labor, complementing existing Wikipedia/Wikidata-based TSQA evaluation approaches by enabling LLM evaluation on application-specific data and seamless multi-hop question generation. Code and data are publicly available at: https://github.com/ssoy0701/tdbench.git.
- Abstract(参考訳): Factsは時間とともに進化し、Large Language Models (LLMs) が時間に敏感な事実知識を正確かつ確実に扱うことが不可欠である。
実時間感性質問応答(TSQA)タスクは広く研究されているが、既存のベンチマークは手作業によるキュレーションや、スケーラブルで包括的なTSQA評価を制限する、定義済みのテンプレートの小さなセットに依存していることが多い。
これらの課題に対処するために、TDBenchを提案する。これはTSQAペアを体系的に構築する新しいベンチマークで、時間的データベースと、時間的SQLや関数的依存関係のようなデータベース技術を利用する。
また,より信頼性の高いTSQA評価を実現するために,モデル説明における時間参照の有効性を従来の回答精度とともに評価する,時間精度と呼ばれる詳細な評価指標も導入する。
従来のウィキペディア/ウィキデータベースのTSQA評価手法を補完し,アプリケーション固有のデータによるLSM評価とシームレスなマルチホップ質問生成を可能にした。
コードとデータは、https://github.com/ssoy0701/tdbench.git.comで公開されている。
関連論文リスト
- The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Evaluating List Construction and Temporal Understanding capabilities of Large Language Models [54.39278049092508]
大規模言語モデル(LLM)は、特に時間的理解タスクにおける幻覚や誤りの影響を受けやすい。
本稿では,時系列に適合するリスト形式で構造化された回答を必要とするTLQA(Time Referenceed List based Question Answering)ベンチマークを提案する。
閉書およびオープンドメイン設定におけるTLQA上の最先端生成モデルの時間的理解とリスト構築能力について検討する。
論文 参考訳(メタデータ) (2025-06-26T21:40:58Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
現実のシナリオでは、回答の正しさはしばしば時間的文脈に結びついている。
2018年から2024年にかけて8000以上のイベントにまたがる新しいフレームワークとデータセットを提示します。
私たちの仕事は、タイムアウェアな言語モデルを進めるための重要なステップを提供します。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization [34.257914212541394]
本稿では,新しいデータ汚染のない質問応答ベンチマークUnSeenTimeQAを紹介する。
既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。
大きな言語モデル(LLM)は、訓練前の段階で得られた事実知識に依存することなく、真の時間的推論を行う必要がある。
論文 参考訳(メタデータ) (2024-07-03T22:02:07Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Improvement Programming for Temporal Knowledge Graph Question Answering [31.33908040172437]
時間的知識グラフ質問回答(TKGQA)は、時間的知識グラフ(TKG)に対する時間的意図で質問に答えることを目的としている。
既存のエンドツーエンドの手法は、質問や候補者の回答の埋め込みを学習することで、時間制約を暗黙的にモデル化する。
TKGQA(Prog-TQA)のための新しい自己改善プログラミング手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:14:27Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。