論文の概要: Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2402.07401v1
- Date: Mon, 12 Feb 2024 04:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:43:59.976403
- Title: Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate
- Title(参考訳): LLMはFact-checkingに忠実な説明をもたらすか?
マルチエージェントによるFact-Checking
- Authors: Kyungha Kim, Sangyun Lee, Kung-Hsiang Huang, Hou Pong Chan, Manling
Li, Heng Ji
- Abstract要約: 大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
- 参考スコア(独自算出の注目度): 75.10515686215177
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fact-checking research has extensively explored verification but less so the
generation of natural-language explanations, crucial for user trust. While
Large Language Models (LLMs) excel in text generation, their capability for
producing faithful explanations in fact-checking remains underexamined. Our
study investigates LLMs' ability to generate such explanations, finding that
zero-shot prompts often result in unfaithfulness. To address these challenges,
we propose the Multi-Agent Debate Refinement (MADR) framework, leveraging
multiple LLMs as agents with diverse roles in an iterative refining process
aimed at enhancing faithfulness in generated explanations. MADR ensures that
the final explanation undergoes rigorous validation, significantly reducing the
likelihood of unfaithful elements and aligning closely with the provided
evidence. Experimental results demonstrate that MADR significantly improves the
faithfulness of LLM-generated explanations to the evidence, advancing the
credibility and trustworthiness of these explanations.
- Abstract(参考訳): ファクトチェック研究は検証を広範囲に検討してきたが、自然言語による説明の生成はユーザの信頼に不可欠である。
大言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおける忠実な説明を生成する能力は依然として過小評価されている。
本研究は,LSMがこのような説明を生成できる能力について検討し,ゼロショットプロンプトがしばしば不信感を引き起こすことを発見した。
これらの課題に対処するために,複数のllmを多様な役割を持つエージェントとして利用するマルチエージェント・ディベート・リフレクション・リファインメント(madr)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
実験の結果,MADR は LLM の生成した説明の信頼性を向上し,これらの説明の信頼性と信頼性を向上することが示された。
関連論文リスト
- Evidence-Focused Fact Summarization for Knowledge-Augmented Zero-Shot
Question Answering [15.437464036956678]
本稿では,QA(Quesetion Answering)の性能向上を目的とした,エビデンスに着目したFact SummarizationフレームワークであるEFSumを提案する。
実験の結果,EFSumはLDMのゼロショットQA性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-03-05T13:43:58Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Large Language Models As Faithful Explainers [67.38301892818778]
大規模言語モデル(LLM)は近年,その豊富な内部知識と推論能力を活用することで,複雑なタスクに対処する技術に長けている。
我々は、LLMの自然言語形式で提供される説明の忠実性を改善するために、生成的説明フレームワークであるxLLMを導入する。
3つのNLUデータセットで行った実験により、xLLMは生成された説明の忠実性を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [52.513957834345746]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。