論文の概要: Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2402.07401v1
- Date: Mon, 12 Feb 2024 04:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:43:59.976403
- Title: Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate
- Title(参考訳): LLMはFact-checkingに忠実な説明をもたらすか?
マルチエージェントによるFact-Checking
- Authors: Kyungha Kim, Sangyun Lee, Kung-Hsiang Huang, Hou Pong Chan, Manling
Li, Heng Ji
- Abstract要約: 大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
- 参考スコア(独自算出の注目度): 75.10515686215177
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fact-checking research has extensively explored verification but less so the
generation of natural-language explanations, crucial for user trust. While
Large Language Models (LLMs) excel in text generation, their capability for
producing faithful explanations in fact-checking remains underexamined. Our
study investigates LLMs' ability to generate such explanations, finding that
zero-shot prompts often result in unfaithfulness. To address these challenges,
we propose the Multi-Agent Debate Refinement (MADR) framework, leveraging
multiple LLMs as agents with diverse roles in an iterative refining process
aimed at enhancing faithfulness in generated explanations. MADR ensures that
the final explanation undergoes rigorous validation, significantly reducing the
likelihood of unfaithful elements and aligning closely with the provided
evidence. Experimental results demonstrate that MADR significantly improves the
faithfulness of LLM-generated explanations to the evidence, advancing the
credibility and trustworthiness of these explanations.
- Abstract(参考訳): ファクトチェック研究は検証を広範囲に検討してきたが、自然言語による説明の生成はユーザの信頼に不可欠である。
大言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおける忠実な説明を生成する能力は依然として過小評価されている。
本研究は,LSMがこのような説明を生成できる能力について検討し,ゼロショットプロンプトがしばしば不信感を引き起こすことを発見した。
これらの課題に対処するために,複数のllmを多様な役割を持つエージェントとして利用するマルチエージェント・ディベート・リフレクション・リファインメント(madr)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
実験の結果,MADR は LLM の生成した説明の信頼性を向上し,これらの説明の信頼性と信頼性を向上することが示された。
関連論文リスト
- Augmenting the Veracity and Explanations of Complex Fact Checking via Iterative Self-Revision with LLMs [10.449165630417522]
中国ではCHEF-EGとTrendFactという2つの複雑なファクトチェックデータセットを構築している。
これらのデータセットは、健康、政治、社会などの分野で複雑な事実を含む。
妥当性と説明の相互フィードバックを行うための統合フレームワークFactISRを提案する。
論文 参考訳(メタデータ) (2024-10-19T15:25:19Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models [26.11408084129897]
大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。
最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。
LLMが生成するSEの忠実度と妥当性の両立を論じる。
論文 参考訳(メタデータ) (2024-02-07T06:32:50Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。