Fugu-MT 論文翻訳(概要): Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers

論文の概要: Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers

arxiv url: http://arxiv.org/abs/2311.09000v3
Date: Tue, 16 Apr 2024 07:41:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 23:55:11.802585
Title: Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers
Title（参考訳）: Factcheck-Bench: 自動Fact-checkersのための細粒度評価ベンチマーク
Authors: Yuxia Wang, Revanth Gangi Reddy, Zain Muhammad Mujahid, Arnav Arora, Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan, Nadav Borenstein, Aditya Pillai, Isabelle Augenstein, Iryna Gurevych, Preslav Nakov,
Abstract要約: 本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
参考スコア（独自算出の注目度）: 121.53749383203792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. In this work, we present a holistic end-to-end solution for annotating the factuality of LLM-generated responses, which encompasses a multi-stage annotation scheme designed to yield detailed labels concerning the verifiability and factual inconsistencies found in LLM outputs. We further construct an open-domain document-level factuality benchmark in three-level granularity: claim, sentence and document, aiming to facilitate the evaluation of automatic fact-checking systems. Preliminary experiments show that FacTool, FactScore and Perplexity.ai are struggling to identify false claims, with the best F1=0.63 by this annotation solution based on GPT-4. Annotation tool, benchmark and code are available at https://github.com/yuxiaw/Factcheck-GPT.
Abstract（参考訳）: 大規模言語モデル(LLM)が現実世界の様々なアプリケーションにまたがって使われるようになると、出力の実際の正確性を検証するメカニズムが要求される。本研究では, LLM 出力における妥当性と事実整合性に関する詳細なラベルを得るための多段階アノテーションスキームを含む, LLM 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。さらに,クレーム,文,文書という3段階の粒度でオープンドメインの文書レベルの事実性ベンチマークを構築し,自動事実チェックシステムの評価を容易にすることを目的とする。予備実験では、FacTool、FactScore、Perplexity.aiが偽のクレームの特定に苦慮していることが示されている。アノテーションツール、ベンチマーク、コードはhttps://github.com/yuxiaw/Factcheck-GPTで公開されている。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
LLM-as-a-Judge for Reference-less Automatic Code Validation and Refinement for Natural Language to Bash in IT Automation [0.9176056742068815]
修復アクションの生成されたコードが構文的かつ意味論的に正しいかどうかを検証することは重要である。本研究では,双方向機能マッチングと論理表現を用いたLLM-as-a-Judgeの改良に焦点を当てた。結果は,実行ベース評価と高い精度と一致を示した。
論文参考訳（メタデータ） (2025-06-12T19:15:05Z)
Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability [3.4354830835082195]
Meeseeksは反復的なフィードバックプロセスを通じて現実的な人間とLLMのインタラクションをシミュレートする。この設計により、モデルは特定の要求障害に基づいて自己修正できる。
論文参考訳（メタデータ） (2025-04-30T13:28:19Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文参考訳（メタデータ） (2024-11-08T21:26:57Z)
OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [64.25176233153657]
OpenFactCheckは、大規模な言語モデルのためのオープンソースのファクトチェックフレームワークである。ユーザーは自動的にファクトチェックシステムを簡単にカスタマイズできる。また、そのシステムを用いて、入力文書におけるすべてのクレームの事実性を評価する。
論文参考訳（メタデータ） (2024-08-06T15:49:58Z)
CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [15.60762281287532]
大きな言語モデル(LLM)は様々なドメインに革命をもたらしていますが、その答えを検証することは大きな課題です。本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。 CheckEmbedは、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較。
論文参考訳（メタデータ） (2024-06-04T17:42:21Z)
OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [27.89053798151106]
OpenFactCheckは、大規模な言語モデルのための統合された事実性評価フレームワークである。 OpenFactCheckは、 (i) CUSTCHECKER、 (ii) LLMEVAL、 (iii) CHECKEREVALの3つのモジュールから構成される。
論文参考訳（メタデータ） (2024-05-09T07:15:19Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文参考訳（メタデータ） (2023-07-13T17:14:38Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文参考訳（メタデータ） (2023-03-15T19:31:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。