論文の概要: Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and
Correction of LLM Output
- arxiv url: http://arxiv.org/abs/2311.09000v1
- Date: Wed, 15 Nov 2023 14:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 15:45:51.375850
- Title: Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and
Correction of LLM Output
- Title(参考訳): Factcheck-GPT:LLM出力のFact-Checkingと補正
- Authors: Yuxia Wang, Revanth Gangi Reddy, Zain Muhammad Mujahid, Arnav Arora,
Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan,
Nadav Borenstein, Aditya Pillai, Isabelle Augenstein, Iryna Gurevych, Preslav
Nakov
- Abstract要約: 本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。
オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
- 参考スコア(独自算出の注目度): 124.25862294329058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased use of large language models (LLMs) across a variety of
real-world applications calls for mechanisms to verify the factual accuracy of
their outputs. In this work, we present a holistic end-to-end solution for
annotating the factuality of LLM-generated responses, which encompasses a
multi-stage annotation scheme designed to yield detailed labels concerning the
verifiability and factual inconsistencies found in LLM outputs. We design and
build an annotation tool to speed up the labelling procedure and ease the
workload of raters. It allows flexible incorporation of automatic results in
any stage, e.g. automatically-retrieved evidence. We further construct an
open-domain document-level factuality benchmark in three-level granularity:
claim, sentence and document. Preliminary experiments show that FacTool,
FactScore and Perplexity.ai are struggling to identify false claims with the
best F1=0.53. Annotation tool, benchmark and code are available at
https://github.com/yuxiaw/Factcheck-GPT.
- Abstract(参考訳): 様々な実世界のアプリケーションで大規模言語モデル(llm)の使用が増加すると、出力の事実的正確性を検証するメカニズムが要求される。
本研究では, LLM 出力における妥当性と事実整合性に関する詳細なラベルを得るための多段階アノテーションスキームを含む, LLM 生成応答の事実性を注釈する総合的なエンドツーエンドソリューションを提案する。
ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。
任意の段階で自動結果を柔軟に組み込むことができる。
我々はさらに,クレーム,文,文書という3段階の粒度で,オープンドメインの文書レベルの事実度ベンチマークを構築する。
予備実験の結果、factool、factscore、perplexity.aiは最良のf1=0.53で偽のクレームを特定するのに苦労している。
アノテーションツール、ベンチマーク、コードはhttps://github.com/yuxiaw/Factcheck-GPTで公開されている。
関連論文リスト
- Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Unveiling the Siren's Song: Towards Reliable Fact-Conflicting
Hallucination Detection [51.73054312781554]
FactCHDは、LLM(Large Language Models)用に細心に設計された、事実にこだわる幻覚検出ベンチマークである。
我々のベンチマークは、バニラ、マルチホップ、比較、セットオペレーティングパターンなど、幅広い事実性パターンを同化している。
Llama2 に基づくツール強化 ChatGPT と Lora-tuning による反射的考察を合成する TRUTH-TRIANGULATOR を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Configuration Validation with Large Language Models [9.419168305350487]
既存の構成検証技術は手書きのルールやテストケースに依存している。
我々は,異なるLLMを統合した汎用LLMベースの検証フレームワークCiriを開発した。
Ciriは、有効な設定データと誤設定データの両方に基づいて、数ショットの学習で効果的なプロンプトエンジニアリングを考案する。
論文 参考訳(メタデータ) (2023-10-15T00:50:27Z) - Generating Benchmarks for Factuality Evaluation of Language Models [53.615272895860635]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
i) ベンチマークスコアがモデルサイズに比例して増加し,LMが検索によって拡張された場合には改善される; (ii) ベンチマークスコアはパープレキシティと相関するが,2つの指標は必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合には,後者の方がオープンな事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Automated Annotation with Generative AI Requires Validation [0.0]
生成型大規模言語モデル(LLM)は、テキストアノテーションの手順を増強するための強力なツールである。
LLMのアノテーションポテンシャルを原則的かつ効率的な方法で活用するためのワークフローを概説する。
テキストアノテーションのLLM性能は有望であるが,データセットとアノテーションの型の両方に高い関連性があることが判明した。
論文 参考訳(メタデータ) (2023-05-31T20:50:45Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large
Language Models [24.124504832000564]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Evaluating the Factual Consistency of Large Language Models Through
Summarization [95.28570561111597]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。