Fugu-MT 論文翻訳(概要): GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence

論文の概要: GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence

arxiv url: http://arxiv.org/abs/2402.12566v1
Date: Mon, 19 Feb 2024 21:45:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 18:01:32.600360
Title: GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence
Title（参考訳）: GenAudit: 言語モデル出力のエラーをエビデンスで修正する
Authors: Kundan Krishna, Sanjana Ramprasad, Prakhar Gupta, Byron C. Wallace, Zachary C. Lipton, Jeffrey P. Bigham
Abstract要約: GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
参考スコア（独自算出の注目度）: 68.82726887802856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs can generate factually incorrect statements even when provided access to reference documents. Such errors can be dangerous in high-stakes applications (e.g., document-grounded QA for healthcare or finance). We present GenAudit -- a tool intended to assist fact-checking LLM responses for document-grounded tasks. GenAudit suggests edits to the LLM response by revising or removing claims that are not supported by the reference document, and also presents evidence from the reference for facts that do appear to have support. We train models to execute these tasks, and design an interactive interface to present suggested edits and evidence to users. Comprehensive evaluation by human raters shows that GenAudit can detect errors in 8 different LLM outputs when summarizing documents from diverse domains. To ensure that most errors are flagged by the system, we propose a method that can increase the error recall while minimizing impact on precision. We will release our tool (GenAudit) and fact-checking model for public use.
Abstract（参考訳）: LLMは、参照ドキュメントへのアクセスを提供しても、事実的に誤ったステートメントを生成することができる。このようなエラーは、ハイテイクなアプリケーション(例えば、医療やファイナンスのための文書化されたQA)では危険である。 GenAudit - 文書グラウンドタスクの事実チェック LLM 応答を支援するツールを提案する。 GenAuditは、レファレンス文書でサポートされていないクレームを修正したり削除したりすることで、LLMレスポンスの編集を提案し、また、サポートしているように見える事実の参照から証拠を提示する。これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。 GenAuditは、さまざまなドメインから文書を要約する際に、8つの異なるLCM出力でエラーを検出することができる。システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。当社のツール(genaudit)とファクトチェックモデルを一般向けにリリースします。

関連論文リスト

TRAPDOC: Deceiving LLM Users by Injecting Imperceptible Phantom Tokens into Documents [4.753535328327316]
大規模言語モデル(LLM)への過度な依存は、重要な社会的問題として浮上している。そこで本研究では,LLMがユーザにとって妥当と思われるが,実際には誤りである出力を生成するために,不知覚なファントムトークンを文書に注入する手法を提案する。本手法を応用して,高信頼性LLMユーザを欺くためのフレームワークであるTRAPDOCを導入する。
論文参考訳（メタデータ） (2025-05-30T07:16:53Z)
GE-Chat: A Graph Enhanced RAG Framework for Evidential Response Generation of LLMs [6.3596531375179515]
本稿では,エビデンスに基づく応答生成を実現するための検索強化フレームワークであるGE-Chatを提案する。具体的には、ユーザが資料をアップロードすると、知識グラフが作成され、検索強化エージェントの構築に役立ちます。我々は、正確な証拠検索を実現するために、Chain-of-Thought(CoT)ロジック生成、n-hopサブグラフ検索、entailment-based sentence生成を活用する。
論文参考訳（メタデータ） (2025-05-15T10:17:35Z)
On the Capacity of Citation Generation by Large Language Models [38.47160164251295]
Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における「ハロシン化」問題を緩和するための有望な方法として現れる。
論文参考訳（メタデータ） (2024-10-15T03:04:26Z)
RETAIN: Interactive Tool for Regression Testing Guided LLM Migration [8.378294455013284]
RETAIN(Regression Testing Guided LLM migrAtIoN)は、LLMマイグレーションにおける回帰テスト用に明示的に設計されたツールである。自動評価と経験的ユーザスタディにより、RETAINは手動による評価と比較して、参加者が2倍のエラーを識別し、75%以上のプロンプトで実験し、与えられた時間枠で12%高いスコアを得ることができた。
論文参考訳（メタデータ） (2024-09-05T22:22:57Z)
CrAM: Credibility-Aware Attention Modification in LLMs for Combating Misinformation in RAG [50.030526904378256]
Retrieval-Augmented Generation (RAG)は、外部文書を参照することにより、LLM(Large Language Models)の幻覚を軽減することができる。この問題に対処するために,我々は「クレディビリティ・アウェアRAG」の課題を探求する。我々は$textbfCr$edibility-aware $textbfA$ttention $textbfM$odification (CrAM)というプラグイン・アンド・プレイ方式を導入する。 CrAMは、文書の信頼性に基づいて、影響力のある注意頭を特定し、その注意重みを調整することにより、低信頼度文書の影響を低減する。
論文参考訳（メタデータ） (2024-06-17T13:01:12Z)
FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking [1.985242455423935]
「FactCheck Editor」は、事実チェックと正しい事実不正確性を自動化するために設計された高度なテキストエディタである。 90以上の言語をサポートし、トランスフォーマーモデルを使用して、人間の労働集約的な事実検証を支援する。
論文参考訳（メタデータ） (2024-04-30T11:55:20Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop [7.77005079649294]
有効な方法は、同じ質問の異なるバージョンを使って、大きな言語モデルを探索することである。この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。我々はLLMAuditorフレームワークを提案し、異なるLLMとHIL(Human-in-the-loop)を併用する。このアプローチは、検証性と透明性を提供すると同時に、同じLLMへの円形依存を回避する。
論文参考訳（メタデータ） (2024-02-14T17:49:31Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-14T01:38:02Z)
Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文参考訳（メタデータ） (2023-10-19T15:40:00Z)
Beyond the Chat: Executable and Verifiable Text-Editing with LLMs [87.84199761550634]
近年,Large Language Models (LLMs) を利用した会話インタフェースが,文書編集時にフィードバックを得る手段として人気になっている。 InkSyncは、編集中のドキュメント内で直接実行可能な編集を推奨する編集インターフェースである。
論文参考訳（メタデータ） (2023-09-27T00:56:17Z)
Factual Error Correction of Claims [18.52583883901634]
本稿では,事実誤り訂正の課題を紹介する。誤情報を含む文章を修正するメカニズムを提供します。これは、すでに証拠によって部分的に支持されている主張に固有の説明として機能する。
論文参考訳（メタデータ） (2020-12-31T18:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。