論文の概要: A Question Answering Dataset for Temporal-Sensitive Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.12282v1
- Date: Sun, 17 Aug 2025 08:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.659149
- Title: A Question Answering Dataset for Temporal-Sensitive Retrieval-Augmented Generation
- Title(参考訳): 時間感性検索強化ジェネレーションのための質問応答データセット
- Authors: Ziyang Chen, Erxue Min, Xiang Zhao, Yunxin Li, Xin Jia, Jinzhi Liao, Jichao Li, Shuaiqiang Wang, Baotian Hu, Dawei Yin,
- Abstract要約: ChronoQAは中国の質問応答のための大規模なベンチマークデータセットである。
絶対、集約、および相対時間型を明示的および暗黙的な時間表現でカバーする5,176の高品質な質問を含んでいる。
- 参考スコア(独自算出の注目度): 40.00268164578221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ChronoQA, a large-scale benchmark dataset for Chinese question answering, specifically designed to evaluate temporal reasoning in Retrieval-Augmented Generation (RAG) systems. ChronoQA is constructed from over 300,000 news articles published between 2019 and 2024, and contains 5,176 high-quality questions covering absolute, aggregate, and relative temporal types with both explicit and implicit time expressions. The dataset supports both single- and multi-document scenarios, reflecting the real-world requirements for temporal alignment and logical consistency. ChronoQA features comprehensive structural annotations and has undergone multi-stage validation, including rule-based, LLM-based, and human evaluation, to ensure data quality. By providing a dynamic, reliable, and scalable resource, ChronoQA enables structured evaluation across a wide range of temporal tasks, and serves as a robust benchmark for advancing time-sensitive retrieval-augmented question answering systems.
- Abstract(参考訳): 本稿では,中国語質問応答のための大規模ベンチマークデータセットであるChronoQAについて紹介する。
クロノQAは、2019年から2024年にかけて発行された300,000以上のニュース記事から構築され、絶対性、集約性、相対時間型を明示的、暗黙的の両方でカバーする5,176の質の高い質問を含んでいる。
データセットは、時間的アライメントと論理的一貫性の現実的な要件を反映して、シングルドキュメントシナリオとマルチドキュメントシナリオの両方をサポートする。
ChronoQAは包括的な構造アノテーションを備えており、データ品質を保証するためにルールベース、LLMベース、人間評価を含む多段階の検証が行われている。
動的で信頼性があり、スケーラブルなリソースを提供することにより、ChronoQAは、広範囲の時間的タスクにわたって構造化された評価を可能にし、時間に敏感な検索強化された質問応答システムを構築するための堅牢なベンチマークとして機能する。
関連論文リスト
- Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models [38.12930048471948]
TDBenchは、タイムセンシティブな質問-回答ペアを体系的に構築する新しいベンチマークである。
時間精度と呼ばれるきめ細かい評価基準は、モデル説明における時間参照の有効性を評価する。
現代のLarge Language Modelsの実験では、スケーラブルで包括的なTSQA評価を実現する方法が示されています。
論文 参考訳(メタデータ) (2025-08-04T04:27:06Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - It's High Time: A Survey of Temporal Question Answering [17.07150094603319]
TQA(Temporal Question Answering)は、時間的制約や文脈に関する質問に答えることに焦点を当てている。
ニューラルモデルと大規模言語モデル(LLM)によるTQAの最近の進歩
時間的堅牢性、傾向認識、一般化をテストするために設計されたベンチマークデータセットと評価戦略。
論文 参考訳(メタデータ) (2025-05-26T17:21:26Z) - TempRetriever: Fusion-based Temporal Dense Passage Retrieval for Time-Sensitive Questions [18.87473448633352]
本研究では,検索プロセスにクエリ日時と文書タイムスタンプの両方を埋め込むことで,時間情報を明示的に組み込むTempRetrieverを提案する。
TempRetrieverは、Top-1検索精度が6.63%向上し、NDCG@10が3.79%向上した。
また,トレーニング中の時間的ずれに対処し,検索性能をさらに向上する,時間に基づく新規なネガティブサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-28T13:06:25Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering [24.046966640011124]
ComplexTempQAは、1億以上の質問応答ペアからなる大規模なデータセットである。
このデータセットは、20年以上にわたる質問をカバーし、未一致のトピックを提供している。
論文 参考訳(メタデータ) (2024-06-07T12:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。