論文の概要: FaStFACT: Faster, Stronger Long-Form Factuality Evaluations in LLMs
- arxiv url: http://arxiv.org/abs/2510.12839v1
- Date: Mon, 13 Oct 2025 19:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.351351
- Title: FaStFACT: Faster, Stronger Long-Form Factuality Evaluations in LLMs
- Title(参考訳): FaStFACT:LLMの高速・高強度長めの形状評価
- Authors: Yingjia Wan, Haochen Tan, Xiao Zhu, Xinyu Zhou, Zhiwei Li, Qingsong Lv, Changxuan Sun, Jiaqi Zeng, Yi Xu, Jianqiao Lu, Yinhong Liu, Zhijiang Guo,
- Abstract要約: nameは、Large Language Models(LLMs)からの長文世代の実性を評価するためのフレームワークである
nameはまず、信頼に基づく事前検証と統合されたチャンクレベルのクレーム抽出を使用する。
検索と検証のために、クロールされたWebページから文書レベルの証拠を収集する。
- 参考スコア(独自算出の注目度): 34.87719459551127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating the factuality of long-form generations from Large Language Models (LLMs) remains challenging due to accuracy issues and costly human assessment. Prior efforts attempt this by decomposing text into claims, searching for evidence, and verifying claims, but suffer from critical drawbacks: (1) inefficiency due to complex pipeline components unsuitable for long LLM outputs, and (2) ineffectiveness stemming from inaccurate claim sets and insufficient evidence collection of one-line snippets. To address these limitations, we propose \name, a fast and strong evaluation framework that achieves the highest alignment with human evaluation and efficiency among existing baselines. \name first employs chunk-level claim extraction integrated with confidence-based pre-verification, significantly reducing the cost of web searching and inference calling while ensuring reliability. For searching and verification, it collects document-level evidence from crawled webpages and selectively retrieves it during verification, addressing the evidence insufficiency problem in previous pipelines. Extensive experiments based on an aggregated and manually annotated benchmark demonstrate the reliability of \name in both efficiently and effectively evaluating the factuality of long-form LLM generations. Code and benchmark data is available at https://github.com/Yingjia-Wan/FastFact.
- Abstract(参考訳): LLM(Large Language Models)からの長大な世代(長大な言語モデル)の現実性を評価することは、精度の問題と人的評価の費用がかかるため、依然として困難である。
従来の試みでは、テキストをクレームに分解し、エビデンスを探し、クレームを検証することでこれを試みていたが、(1)長いLLM出力に適さない複雑なパイプラインコンポーネントによる非効率性、(2)不正確なクレームセットと1行スニペットの不十分なエビデンスコレクションから生じる非効率性といった重大な欠点に悩まされていた。
これらの制約に対処するために,既存のベースライン間の人的評価と効率を最大限に一致させる,高速で強力な評価フレームワークである \name を提案する。
\nameはまず、信頼に基づく事前検証と統合されたチャンクレベルのクレーム抽出を採用し、信頼性を確保しつつ、Web検索と推論呼び出しのコストを大幅に削減する。
検索と検証のために、クローされたWebページから文書レベルの証拠を収集し、検証中に選択的にそれを検索し、以前のパイプラインにおける証拠不足問題に対処する。
集約的および手動で注釈付けされたベンチマークに基づく大規模な実験は、長大なLLM世代を効率よく、かつ効果的に評価する。
コードとベンチマークデータはhttps://github.com/Yingjia-Wan/FastFact.comで公開されている。
関連論文リスト
- DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。