論文の概要: NeoQA: Evidence-based Question Answering with Generated News Events
- arxiv url: http://arxiv.org/abs/2505.05949v1
- Date: Fri, 09 May 2025 10:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.236079
- Title: NeoQA: Evidence-based Question Answering with Generated News Events
- Title(参考訳): NeoQA: 生成したニュースイベントによるエビデンスベースの質問応答
- Authors: Max Glockner, Xiang Jiang, Leonardo F. R. Ribeiro, Iryna Gurevych, Markus Dreyer,
- Abstract要約: この問題に対処するために設計されたベンチマークであるNeoQAを紹介します。
我々は,エビデンスに基づく質問応答を評価するための新しいプラットフォームとして,データセットを提案する。
- 参考スコア(独自算出の注目度): 53.85274258429368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Retrieval-Augmented Generation (RAG) in large language models (LLMs) is challenging because benchmarks can quickly become stale. Questions initially requiring retrieval may become answerable from pretraining knowledge as newer models incorporate more recent information during pretraining, making it difficult to distinguish evidence-based reasoning from recall. We introduce NeoQA (News Events for Out-of-training Question Answering), a benchmark designed to address this issue. To construct NeoQA, we generated timelines and knowledge bases of fictional news events and entities along with news articles and Q\&A pairs to prevent LLMs from leveraging pretraining knowledge, ensuring that no prior evidence exists in their training data. We propose our dataset as a new platform for evaluating evidence-based question answering, as it requires LLMs to generate responses exclusively from retrieved evidence and only when sufficient evidence is available. NeoQA enables controlled evaluation across various evidence scenarios, including cases with missing or misleading details. Our findings indicate that LLMs struggle to distinguish subtle mismatches between questions and evidence, and suffer from short-cut reasoning when key information required to answer a question is missing from the evidence, underscoring key limitations in evidence-based reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるRAG(Retrieval-Augmented Generation)の評価は,ベンチマークが急速に停滞する可能性があるため難しい。
検索を最初に要求する質問は、新しいモデルが事前訓練中により最近の情報を取り入れているため、事前学習の知識から答えることができるため、証拠に基づく推論をリコールから区別することは困難である。
この問題に対処するために設計されたベンチマークであるNeoQA(News Events for Out-of-training Question Answering)を紹介する。
NeoQAを構築するために、私たちは、ニュース記事やQ\&Aペアと共に架空のニュースイベントやエンティティのタイムラインと知識ベースを生成し、LCMが事前学習の知識を活用するのを防ぎ、トレーニングデータに事前の証拠が存在しないことを保証した。
得られた証拠からのみ,かつ十分な証拠が得られた場合にのみ,LSMが応答を生成する必要があるため,エビデンスベースの質問応答を評価するための新しいプラットフォームとして,我々のデータセットを提案する。
NeoQAは、詳細の欠落や誤解を招くケースを含む、さまざまなエビデンスシナリオに対する制御された評価を可能にする。
以上の結果から, LLM は疑念と証拠の微妙なミスマッチの識別に苦慮し, 疑問に答えるために必要な重要な情報が証拠から欠落している場合のショートカット推論に悩まされることが示唆された。
関連論文リスト
- Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。
この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
本稿では,CRaFT(Certainty Represented Knowledge Flow for Refusal-Aware Instructions Tuning)を提案する。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - Evidence-Enhanced Triplet Generation Framework for Hallucination Alleviation in Generative Question Answering [41.990482015732574]
本稿では,三重項(クエスト,エビデンス,アンスワー)の組合せを予測するための新しいエビデンス強化三重項生成フレームワークであるEATQAを提案する。
推測段階における証拠から知識を抽出するために,分布ギャップを橋渡しする。
我々のフレームワークは,クエリとエビデンスと応答の間の論理的関係を学習し,同時にエビデンス生成とクエリ応答を改善する。
論文 参考訳(メタデータ) (2024-08-27T13:07:07Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Language Models are Causal Knowledge Extractors for Zero-shot Video
Question Answering [60.93164850492871]
Causal Video Question Answering (CVidQA)は、関連性や時間的関係だけでなく、ビデオ内の因果関係も問う。
本稿では,言語モデルからの因果共通知識を利用してCVidQAに取り組む,CaKE-LM(Causal Knowledge extract from Language Models)を提案する。
CaKE-LMは、NExT-QAおよびCausal-VidQAデータセットにおいて、ゼロショットCVidQAの精度の4%から6%で従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-04-07T17:45:49Z) - Do Answers to Boolean Questions Need Explanations? Yes [11.226970608525596]
既存のTyDi QAとBoolQデータセットのエビデンスを示す新しいアノテーションセットをリリースします。
私たちのアノテーションは、改善されたエビデンスの範囲を抽出するモデルをトレーニングするために使用できます。
論文 参考訳(メタデータ) (2021-12-14T22:40:28Z) - REM-Net: Recursive Erasure Memory Network for Commonsense Evidence
Refinement [130.8875535449478]
REM-Netは、答えを説明できない低品質な証拠を消去することで証拠を洗練するためのモジュールを備えている。
既存の知識ベースから証拠を取得する代わりに、REM-Netは事前訓練された生成モデルを利用して、質問用にカスタマイズされた候補証拠を生成する。
結果はREM-Netの性能を示し、洗練された証拠が説明可能であることを示します。
論文 参考訳(メタデータ) (2020-12-24T10:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。