Fugu-MT 論文翻訳(概要): Beyond Precision: Importance-Aware Recall for Factuality Evaluation in Long-Form LLM Generation

論文の概要: Beyond Precision: Importance-Aware Recall for Factuality Evaluation in Long-Form LLM Generation

arxiv url: http://arxiv.org/abs/2604.03141v1
Date: Fri, 03 Apr 2026 16:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.526348
Title: Beyond Precision: Importance-Aware Recall for Factuality Evaluation in Long-Form LLM Generation
Title（参考訳）: 長期LLM生成におけるファクチュアリティ評価のための重要度対応リコール
Authors: Nazanin Jafari, James Allan, Mohit Iyyer,
Abstract要約: 大規模言語モデル(LLM)が生成する長文出力の事実性を評価する。本稿では,精度とリコールを共同で測定する包括的事実性評価フレームワークを提案する。解析の結果,現在のLLMはリコールよりも精度が高いことがわかった。
参考スコア（独自算出の注目度）: 32.04613130489821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating the factuality of long-form output generated by large language models (LLMs) remains challenging, particularly when responses are open-ended and contain many fine-grained factual statements. Existing evaluation methods primarily focus on precision: they decompose a response into atomic claims and verify each claim against external knowledge sources such as Wikipedia. However, this overlooks an equally important dimension of factuality: recall, whether the generated response covers the relevant facts that should be included. We propose a comprehensive factuality evaluation framework that jointly measures precision and recall. Our method leverages external knowledge sources to construct reference facts and determine whether they are captured in generated text. We further introduce an importance-aware weighting scheme based on relevance and salience. Our analysis reveals that current LLMs perform substantially better on precision than on recall, suggesting that factual incompleteness remains a major limitation of long-form generation and that models are generally better at covering highly important facts than the full set of relevant facts.
Abstract（参考訳）: 大規模言語モデル(LLM)が生成する長文出力の事実性を評価することは、特に応答がオープンエンドであり、多くのきめ細かい事実文を含む場合、依然として困難である。既存の評価手法は主に精度に焦点を当てており、応答を原子的クレームに分解し、ウィキペディアのような外部知識ソースに対する各クレームを検証する。しかし、これは事実性の等しく重要な次元を見落としている: 生成した応答が含めるべき関連する事実をカバーするかどうかを思い出す。本稿では,精度とリコールを共同で測定する包括的事実性評価フレームワークを提案する。提案手法は,外部の知識ソースを利用して参照事実を構築し,それらが生成されたテキストでキャプチャされているかどうかを判断する。さらに、関連性およびサリエンスに基づく重み付け方式についても紹介する。解析の結果,現在のLLMの精度はリコールよりもかなり優れており,事実の不完全性は長文生成の大きな限界であり,モデルが関連する事実の完全な集合よりも極めて重要な事実をカバーするのに優れていることが示唆された。

関連論文リスト

Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [2.0861090421004937]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文参考訳（メタデータ） (2025-08-05T19:20:05Z)
VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts [13.694698772833627]
本稿では,事実抽出の促進を目的とした実感評価フレームワークであるVeriFactを紹介する。また、FactRBenchは、長文モデル応答における精度とリコールの両方を評価するベンチマークである。実証的な評価は、VeriFactは事実の完全性を著しく向上させ、重要な関係情報を持つ複雑な事実を保存することを示している。
論文参考訳（メタデータ） (2025-05-14T18:02:37Z)
FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.171510592986735]
本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2025-02-25T19:01:48Z)
FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-02T16:03:13Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations [63.90357081534995]
大型言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在している。 Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。我々は、曖昧なエンティティを持つコンテンツに特化して設計された拡張メトリックD-FActScoreを導入する。
論文参考訳（メタデータ） (2024-02-08T12:36:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。