論文の概要: GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence
- arxiv url: http://arxiv.org/abs/2402.12566v2
- Date: Sat, 16 Mar 2024 21:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:02:06.562747
- Title: GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence
- Title(参考訳): GenAudit: 言語モデル出力のエラーをエビデンスで修正する
- Authors: Kundan Krishna, Sanjana Ramprasad, Prakhar Gupta, Byron C. Wallace, Zachary C. Lipton, Jeffrey P. Bigham,
- Abstract要約: GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
- 参考スコア(独自算出の注目度): 64.95492752484171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs can generate factually incorrect statements even when provided access to reference documents. Such errors can be dangerous in high-stakes applications (e.g., document-grounded QA for healthcare or finance). We present GenAudit -- a tool intended to assist fact-checking LLM responses for document-grounded tasks. GenAudit suggests edits to the LLM response by revising or removing claims that are not supported by the reference document, and also presents evidence from the reference for facts that do appear to have support. We train models to execute these tasks, and design an interactive interface to present suggested edits and evidence to users. Comprehensive evaluation by human raters shows that GenAudit can detect errors in 8 different LLM outputs when summarizing documents from diverse domains. To ensure that most errors are flagged by the system, we propose a method that can increase the error recall while minimizing impact on precision. We release our tool (GenAudit) and fact-checking model for public use.
- Abstract(参考訳): LLMは、参照ドキュメントへのアクセスを提供しても、事実的に誤ったステートメントを生成することができる。
このようなエラーは、ハイテイクなアプリケーション(例えば、医療やファイナンスのための文書化されたQA)では危険である可能性がある。
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることでLCMレスポンスを編集することを提案し、また、サポートしているように見える事実の参照から証拠を提示する。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
ツール(GenAudit)とファクトチェックモデルを公開しています。
関連論文リスト
- CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG [50.030526904378256]
Retrieval-Augmented Generation (RAG)は、外部文書を参照することにより、LLM(Large Language Models)の幻覚を軽減することができる。
この問題に対処するために,我々は「クレディビリティ・アウェアRAG」の課題を探求する。
我々は$textbfCr$edibility-aware $textbfA$ttention $textbfM$odification (CrAM)というプラグイン・アンド・プレイ方式を導入する。
CrAMは、文書の信頼性に基づいて、影響力のある注意頭を特定し、その注意重みを調整することにより、低信頼度文書の影響を低減する。
論文 参考訳(メタデータ) (2024-06-17T13:01:12Z) - FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking [1.985242455423935]
「FactCheck Editor」は、事実チェックと正しい事実不正確性を自動化するために設計された高度なテキストエディタである。
90以上の言語をサポートし、トランスフォーマーモデルを使用して、人間の労働集約的な事実検証を支援する。
論文 参考訳(メタデータ) (2024-04-30T11:55:20Z) - LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop [7.77005079649294]
有効な方法は、同じ質問の異なるバージョンを使って、大きな言語モデルを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
我々はLLMAuditorフレームワークを提案し、異なるLLMとHIL(Human-in-the-loop)を併用する。
このアプローチは、検証性と透明性を提供すると同時に、同じLLMへの円形依存を回避する。
論文 参考訳(メタデータ) (2024-02-14T17:49:31Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。
InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文 参考訳(メタデータ) (2023-09-27T00:56:17Z) - Factual Error Correction of Claims [18.52583883901634]
本稿では,事実誤り訂正の課題を紹介する。
誤情報を含む文章を修正するメカニズムを提供します。
これは、すでに証拠によって部分的に支持されている主張に固有の説明として機能する。
論文 参考訳(メタデータ) (2020-12-31T18:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。