論文の概要: VeriFastScore: Speeding up long-form factuality evaluation
- arxiv url: http://arxiv.org/abs/2505.16973v1
- Date: Thu, 22 May 2025 17:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.519172
- Title: VeriFastScore: Speeding up long-form factuality evaluation
- Title(参考訳): VeriFastScore: 長期的な事実評価のスピードアップ
- Authors: Rishanth Rajendhran, Amir Zadeh, Matthew Sarte, Chuan Li, Mohit Iyyer,
- Abstract要約: 長期の事実性を評価するFactScoreやVeriScoreのようなメトリクスは、入力応答をアトミックなクレームに分解し、それぞれのクレームを個別に検証することで動作する。
We propose VeriFastScore, which leverageed synthesis data to fine-tune Llama3.1 8B to the same-tune Llama3.1 8B to a given text based based on evidence from Google Search。
我々の微調整されたVeriFastScoreモデルは、VeriScoreよりも6.6倍(9.9倍)のスピードアップを実現しつつ、サンプルレベルとシステムレベルの両方でオリジナルのVeriScoreパイプラインと強い相関を示す。
- 参考スコア(独自算出の注目度): 29.078370916447636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metrics like FactScore and VeriScore that evaluate long-form factuality operate by decomposing an input response into atomic claims and then individually verifying each claim. While effective and interpretable, these methods incur numerous LLM calls and can take upwards of 100 seconds to evaluate a single response, limiting their practicality in large-scale evaluation and training scenarios. To address this, we propose VeriFastScore, which leverages synthetic data to fine-tune Llama3.1 8B for simultaneously extracting and verifying all verifiable claims within a given text based on evidence from Google Search. We show that this task cannot be solved via few-shot prompting with closed LLMs due to its complexity: the model receives ~4K tokens of evidence on average and needs to concurrently decompose claims, judge their verifiability, and verify them against noisy evidence. However, our fine-tuned VeriFastScore model demonstrates strong correlation with the original VeriScore pipeline at both the example level (r=0.80) and system level (r=0.94) while achieving an overall speedup of 6.6x (9.9x excluding evidence retrieval) over VeriScore. To facilitate future factuality research, we publicly release our VeriFastScore model and synthetic datasets.
- Abstract(参考訳): 長期の事実性を評価するFactScoreやVeriScoreのようなメトリクスは、入力応答をアトミックなクレームに分解し、それぞれのクレームを個別に検証することで動作する。
有効かつ解釈可能ではあるが、これらの手法は多数のLCMコールを発生させ、単一の応答を評価するのに100秒以上かかる可能性がある。
これを解決するために、Google Searchから証拠に基づいて、与えられたテキスト内の検証可能なすべてのクレームを同時に抽出し、検証するために、合成データを利用してLlama3.1 8Bを微調整するVeriFastScoreを提案する。
モデルは平均4Kの証拠トークンを平均で受け取り、同時にクレームを分解し、その妥当性を判断し、ノイズのある証拠に対して検証する必要がある。
しかし、細調整されたVeriFastScoreモデルは、VeriScoreよりも6.6倍(9.9倍)のスピードアップを実現しつつ、サンプルレベル (r=0.80) とシステムレベル (r=0.94) の両方でオリジナルのVeriScoreパイプラインと強い相関関係を示す。
今後の事実性調査を容易にするため,我々はVeriFastScoreモデルと合成データセットを公開している。
関連論文リスト
- Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation [4.773086022844023]
実世界のユーザインタラクションにおける言語モデルの事実性を評価するパイプラインであるVERIFYを提案する。
VERIFYは既存の手法よりも人的評価と相関性が高いことを示す。
我々は、FACTBENCH上でGPT、Gemini、Llamaファミリーから広く使われているLMをベンチマークした。
論文 参考訳(メタデータ) (2024-10-29T17:19:56Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - FASTTRACK: Fast and Accurate Fact Tracing for LLMs [26.476665624884134]
本稿では,Large Language Models (LLMs) の機能を活用して,クエリに対する支援的エビデンスを検証する新しいアプローチであるFASTTRACKを紹介する。
実験の結果,FASTTRACKは既存の手法よりも精度と効率が優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-22T00:07:55Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。