論文の概要: Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and
Correction of LLM Output
- arxiv url: http://arxiv.org/abs/2311.09000v1
- Date: Wed, 15 Nov 2023 14:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:45:51.375850
- Title: Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and
Correction of LLM Output
- Title(参考訳): Factcheck-GPT:LLM出力のFact-Checkingと補正
- Authors: Yuxia Wang, Revanth Gangi Reddy, Zain Muhammad Mujahid, Arnav Arora,
Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan,
Nadav Borenstein, Aditya Pillai, Isabelle Augenstein, Iryna Gurevych, Preslav
Nakov
- Abstract要約: 本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。
オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
- 参考スコア(独自算出の注目度): 124.25862294329058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased use of large language models (LLMs) across a variety of
real-world applications calls for mechanisms to verify the factual accuracy of
their outputs. In this work, we present a holistic end-to-end solution for
annotating the factuality of LLM-generated responses, which encompasses a
multi-stage annotation scheme designed to yield detailed labels concerning the
verifiability and factual inconsistencies found in LLM outputs. We design and
build an annotation tool to speed up the labelling procedure and ease the
workload of raters. It allows flexible incorporation of automatic results in
any stage, e.g. automatically-retrieved evidence. We further construct an
open-domain document-level factuality benchmark in three-level granularity:
claim, sentence and document. Preliminary experiments show that FacTool,
FactScore and Perplexity.ai are struggling to identify false claims with the
best F1=0.53. Annotation tool, benchmark and code are available at
https://github.com/yuxiaw/Factcheck-GPT.
- Abstract(参考訳): 様々な実世界のアプリケーションで大規模言語モデル(llm)の使用が増加すると、出力の事実的正確性を検証するメカニズムが要求される。
本研究では, LLM 出力における妥当性と事実整合性に関する詳細なラベルを得るための多段階アノテーションスキームを含む, LLM 生成応答の事実性を注釈する総合的なエンドツーエンドソリューションを提案する。
ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。
任意の段階で自動結果を柔軟に組み込むことができる。
我々はさらに,クレーム,文,文書という3段階の粒度で,オープンドメインの文書レベルの事実度ベンチマークを構築する。
予備実験の結果、factool、factscore、perplexity.aiは最良のf1=0.53で偽のクレームを特定するのに苦労している。
アノテーションツール、ベンチマーク、コードはhttps://github.com/yuxiaw/Factcheck-GPTで公開されている。
関連論文リスト
- FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [64.25176233153657]
OpenFactCheckは、大規模な言語モデルのためのオープンソースのファクトチェックフレームワークである。
ユーザーは自動的にファクトチェックシステムを簡単にカスタマイズできる。
また、そのシステムを用いて、入力文書におけるすべてのクレームの事実性を評価する。
論文 参考訳(メタデータ) (2024-08-06T15:49:58Z) - CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks [15.60762281287532]
大きな言語モデル(LLM)は様々なドメインに革命をもたらしていますが、その答えを検証することは大きな課題です。
本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。
CheckEmbedは、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較。
論文 参考訳(メタデータ) (2024-06-04T17:42:21Z) - OpenFactCheck: A Unified Framework for Factuality Evaluation of LLMs [27.89053798151106]
OpenFactCheckは、大規模な言語モデルのための統合された事実性評価フレームワークである。
OpenFactCheckは、 (i) CUSTCHECKER、 (ii) LLMEVAL、 (iii) CHECKEREVALの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z) - MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。
GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。
評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。