論文の概要: FaStfact: Faster, Stronger Long-Form Factuality Evaluations in LLMs
- arxiv url: http://arxiv.org/abs/2510.12839v2
- Date: Wed, 05 Nov 2025 03:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:40.074215
- Title: FaStfact: Faster, Stronger Long-Form Factuality Evaluations in LLMs
- Title(参考訳): ファストファクト:LLMにおけるより高速でより強固な長めのファクチュアリティ評価
- Authors: Yingjia Wan, Haochen Tan, Xiao Zhu, Xinyu Zhou, Zhiwei Li, Qingsong Lv, Changxuan Sun, Jiaqi Zeng, Yi Xu, Jianqiao Lu, Yinhong Liu, Zhijiang Guo,
- Abstract要約: textbfFaStfactは評価フレームワークであり、人間の評価と時間/時間効率を最大限に調整する。
FaStfactはまず、信頼に基づく事前検証と統合されたチャンクレベルのクレーム抽出を採用する。
検索と検証のために、クロールされたWebページから文書レベルの証拠を収集し、検証中に選択的に検索する。
- 参考スコア(独自算出の注目度): 34.87719459551127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating the factuality of long-form generations from Large Language Models (LLMs) remains challenging due to efficiency bottlenecks and reliability concerns. Prior efforts attempt this by decomposing text into claims, searching for evidence, and verifying claims, but suffer from critical drawbacks: (1) inefficiency due to overcomplicated pipeline components, and (2) ineffectiveness stemming from inaccurate claim sets and insufficient evidence. To address these limitations, we propose \textbf{FaStfact}, an evaluation framework that achieves the highest alignment with human evaluation and time/token efficiency among existing baselines. FaStfact first employs chunk-level claim extraction integrated with confidence-based pre-verification, significantly reducing the time and token cost while ensuring reliability. For searching and verification, it collects document-level evidence from crawled web-pages and selectively retrieves it during verification. Extensive experiments based on an annotated benchmark \textbf{FaStfact-Bench} demonstrate the reliability of FaStfact in both efficiently and effectively evaluating long-form factuality. Code, benchmark data, and annotation interface tool are available at https://github.com/Yingjia-Wan/FaStfact.
- Abstract(参考訳): LLM(Large Language Models)からの長大な世代(長大な言語モデル)の現実性を評価することは、効率のボトルネックと信頼性の懸念から、依然として難しい。
以前の試みでは、文書をクレームに分解し、エビデンスを探し、クレームを検証することでこれを試みていたが、重大な欠点を被った:(1) 複雑すぎるパイプライン成分による非効率性、(2) 不正確なクレームセットと不十分なエビデンスから生じる非効率性。
これらの制約に対処するため,既存のベースライン間での人的評価と時間/時間効率を最大限に一致させる評価フレームワークである「textbf{FaStfact}」を提案する。
FaStfactはまず、信頼に基づく事前検証と統合されたチャンクレベルのクレーム抽出を採用し、信頼性を確保しながら、時間とトークンのコストを大幅に削減する。
検索と検証のために、クロールされたWebページから文書レベルの証拠を収集し、検証中に選択的に検索する。
注釈付きベンチマークであるtextbf{FaStfact-Bench} に基づく大規模な実験は、FaStfactの信頼性を効率よく、かつ効果的に長文の事実性を評価できることを示した。
コード、ベンチマークデータ、アノテーションインターフェースツールはhttps://github.com/Yingjia-Wan/FaStfact.comで入手できる。
関連論文リスト
- DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。