論文の概要: Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation
- arxiv url: http://arxiv.org/abs/2510.07926v1
- Date: Thu, 09 Oct 2025 08:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.954981
- Title: Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation
- Title(参考訳): テキスト生成におけるファクトリコールの自動評価のための包括性メトリクス
- Authors: Adam Dejl, James Barry, Alessandra Pascale, Javier Carnerero Cano,
- Abstract要約: 大規模言語モデル(LLM)は、不完全または選択的に鍵情報を省略する出力を生成する。
センシティブなドメインでは、そのような欠落は、事実的不正確さによって引き起こされるものと同等の重大な害をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 46.697788643450785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite demonstrating remarkable performance across a wide range of tasks, large language models (LLMs) have also been found to frequently produce outputs that are incomplete or selectively omit key information. In sensitive domains, such omissions can result in significant harm comparable to that posed by factual inaccuracies, including hallucinations. In this study, we address the challenge of evaluating the comprehensiveness of LLM-generated texts, focusing on the detection of missing information or underrepresented viewpoints. We investigate three automated evaluation strategies: (1) an NLI-based method that decomposes texts into atomic statements and uses natural language inference (NLI) to identify missing links, (2) a Q&A-based approach that extracts question-answer pairs and compares responses across sources, and (3) an end-to-end method that directly identifies missing content using LLMs. Our experiments demonstrate the surprising effectiveness of the simple end-to-end approach compared to more complex methods, though at the cost of reduced robustness, interpretability and result granularity. We further assess the comprehensiveness of responses from several popular open-weight LLMs when answering user queries based on multiple sources.
- Abstract(参考訳): 幅広いタスクにおいて顕著なパフォーマンスを示すにもかかわらず、大きな言語モデル(LLM)は、不完全または選択的に鍵情報を省略する出力を頻繁に生成する。
センシティブなドメインでは、そのような欠落は幻覚を含む事実的不正確さによって引き起こされるものと同等の重大な害をもたらす可能性がある。
本研究では,LLM生成テキストの包括性を評価することの課題に対処し,不足情報の検出や表現不足の視点に着目した。
本研究では,(1)テキストをアトミックステートメントに分解し,自然言語推論(NLI)を用いてリンクを識別するNLI法,(2)質問応答対を抽出してソース間で応答を比較するQ&A法,(3)LCMを用いて行方不明コンテンツを直接識別するエンドツーエンド法,の3つの自動評価手法について検討する。
我々の実験は、より複雑な手法と比較して、単純なエンドツーエンドアプローチの驚くべき効果を実証するが、ロバスト性、解釈可能性、結果の粒度は低下する。
さらに、複数のソースに基づいてユーザクエリに応答する際の、いくつかの人気のあるオープンウェイトLCMからの応答の包括性を評価する。
関連論文リスト
- ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering [3.131352561462676]
大規模言語モデル(LLM)は、現実的な質問応答が可能なAIシステムの開発に寄与している。
難解な質問が提示されたとき、LSMの堅牢性をテストする既知の研究はない。
本稿では,多層難読化レベルのフレームワークであるObfusQAを紹介し,LLMの能力について検討する。
論文 参考訳(メタデータ) (2025-08-10T12:27:52Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。