論文の概要: VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts
- arxiv url: http://arxiv.org/abs/2505.09701v1
- Date: Wed, 14 May 2025 18:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.056233
- Title: VeriFact: Enhancing Long-Form Factuality Evaluation with Refined Fact Extraction and Reference Facts
- Title(参考訳): VeriFact: 修正ファクト抽出と参照ファクトによる長期的ファクティリティ評価の強化
- Authors: Xin Liu, Lechen Zhang, Sheza Munir, Yiyang Gu, Lu Wang,
- Abstract要約: 本稿では,事実抽出の促進を目的とした実感評価フレームワークであるVeriFactを紹介する。
また、FactRBenchは、長文モデル応答における精度とリコールの両方を評価するベンチマークである。
実証的な評価は、VeriFactは事実の完全性を著しく向上させ、重要な関係情報を持つ複雑な事実を保存することを示している。
- 参考スコア(独自算出の注目度): 6.810019560977178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at generating long-form responses, but evaluating their factuality remains challenging due to complex inter-sentence dependencies within the generated facts. Prior solutions predominantly follow a decompose-decontextualize-verify pipeline but often fail to capture essential context and miss key relational facts. In this paper, we introduce VeriFact, a factuality evaluation framework designed to enhance fact extraction by identifying and resolving incomplete and missing facts to support more accurate verification results. Moreover, we introduce FactRBench , a benchmark that evaluates both precision and recall in long-form model responses, whereas prior work primarily focuses on precision. FactRBench provides reference fact sets from advanced LLMs and human-written answers, enabling recall assessment. Empirical evaluations show that VeriFact significantly enhances fact completeness and preserves complex facts with critical relational information, resulting in more accurate factuality evaluation. Benchmarking various open- and close-weight LLMs on FactRBench indicate that larger models within same model family improve precision and recall, but high precision does not always correlate with high recall, underscoring the importance of comprehensive factuality assessment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長文の応答を生成するのに優れているが、生成した事実に複雑な文間依存関係があるため、それらの事実を評価することは依然として困難である。
以前のソリューションは、主に分解・分解・検証パイプラインに従っていたが、重要なコンテキストを捉え、重要なリレーショナル事実を見逃すことがしばしばある。
本稿では,不完全かつ欠落した事実を識別・解決し,より正確な検証結果を支援することにより,事実抽出を強化するために設計された事実評価フレームワークであるVeriFactを紹介する。
さらに、FactRBenchは、長文モデル応答における精度とリコールの両方を評価するベンチマークであるが、先行研究は主に精度に焦点を当てている。
FactRBenchは、高度なLCMと人間による回答からの参照事実セットを提供し、リコールアセスメントを可能にする。
実証的な評価は、VeriFactが事実完全性を著しく向上させ、重要な関係情報を持つ複雑な事実を保存し、より正確な事実性評価をもたらすことを示している。
FactRBench 上の様々なオープンウェイト LLM のベンチマークでは、同じモデルファミリー内のより大きなモデルは精度とリコールを改善するが、高い精度は必ずしも高いリコールと相関せず、包括的事実性評価の重要性を強調している。
関連論文リスト
- FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.171510592986735]
本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。
ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-25T19:01:48Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - FactKB: Generalizable Factuality Evaluation using Language Models
Enhanced with Factual Knowledge [37.2179237007464]
本稿では,ドメイン間で一般化可能なファクトリティー評価手法であるFactKBを提案する。
本稿では, 直接実体事実に基づく補完的事実事前学習の目的, 実体に関する補助的知識に基づく事実, 知識ベースウォークを通じて構成的に構築された事実の3つの種類を紹介する。
結果の事実性評価モデルは、2つのドメイン内ニュース要約ベンチマークと3つのドメイン外科学文献データセットに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-14T23:58:05Z) - Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。
次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文 参考訳(メタデータ) (2020-03-19T07:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。