論文の概要: Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework
- arxiv url: http://arxiv.org/abs/2406.03075v1
- Date: Wed, 5 Jun 2024 08:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:09:43.017714
- Title: Towards Detecting LLMs Hallucination via Markov Chain-based Multi-agent Debate Framework
- Title(参考訳): マルコフ連鎖に基づくマルチエージェント議論フレームワークによるLLMの幻覚検出に向けて
- Authors: Xiaoxi Sun, Jinpeng Li, Yan Zhong, Dongyan Zhao, Rui Yan,
- Abstract要約: 本稿では,マルコフ連鎖に基づくマルチエージェント論争検証フレームワークを提案し,簡潔なクレームにおける幻覚検出精度を向上させる。
本手法は,クレーム検出,エビデンス検索,マルチエージェント検証を含むファクトチェック処理を統合する。
- 参考スコア(独自算出の注目度): 41.47029501736853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of large language models (LLMs) has facilitated the development of natural language text generation. It also poses unprecedented challenges, with content hallucination emerging as a significant concern. Existing solutions often involve expensive and complex interventions during the training process. Moreover, some approaches emphasize problem disassembly while neglecting the crucial validation process, leading to performance degradation or limited applications. To overcome these limitations, we propose a Markov Chain-based multi-agent debate verification framework to enhance hallucination detection accuracy in concise claims. Our method integrates the fact-checking process, including claim detection, evidence retrieval, and multi-agent verification. In the verification stage, we deploy multiple agents through flexible Markov Chain-based debates to validate individual claims, ensuring meticulous verification outcomes. Experimental results across three generative tasks demonstrate that our approach achieves significant improvements over baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、自然言語テキスト生成の発展を促している。
また、コンテンツ幻覚が重要な懸念事項として浮上するなど、前例のない課題も生じている。
既存のソリューションはしばしば、トレーニングプロセス中に高価で複雑な介入を伴います。
さらに、いくつかのアプローチでは、重要なバリデーションプロセスを無視しながら、問題を分解することを強調し、パフォーマンスの低下や限られたアプリケーションに繋がる。
これらの制約を克服するために,マルコフ・チェインをベースとしたマルチエージェント・ディスカッション検証フレームワークを提案し,簡潔なクレームにおける幻覚検出精度を向上させる。
本手法は,クレーム検出,エビデンス検索,マルチエージェント検証を含むファクトチェック処理を統合する。
検証段階では、フレキシブルなマルコフ・チェインに基づく議論を通じて複数のエージェントをデプロイし、個々のクレームを検証し、綿密な検証結果を保証する。
3つの生成タスクにまたがる実験結果から,本手法はベースラインよりも大幅に改善されることが示された。
関連論文リスト
- RAG-based Crowdsourcing Task Decomposition via Masked Contrastive Learning with Prompts [21.69333828191263]
本稿では、自然言語理解の観点からタスク分解(TD)をイベント検出として再認識する、検索強化世代ベースのクラウドソーシングフレームワークを提案する。
本稿では,TD (PBCT) のための Prompt-based Contrastive Learning framework を提案する。
実験結果は,教師付きおよびゼロショット検出における本手法の競合性を実証した。
論文 参考訳(メタデータ) (2024-06-04T08:34:19Z) - HalluVault: A Novel Logic Programming-aided Metamorphic Testing Framework for Detecting Fact-Conflicting Hallucinations in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。
テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文 参考訳(メタデータ) (2024-05-01T17:24:42Z) - KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチである
ステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。
評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-03T02:52:07Z) - Claim Detection for Automated Fact-checking: A Survey on Monolingual, Multilingual and Cross-Lingual Research [7.242609314791262]
本稿では,現状の多言語クレーム検出研究を,問題の3つの重要な要因,妥当性,優先性,類似性に分類する。
本稿では,既存の多言語データセットの概要と課題について概説し,今後の発展の可能性を提案する。
論文 参考訳(メタデータ) (2024-01-22T14:17:03Z) - Noisy Exemplars Make Large Language Models More Robust: A
Domain-Agnostic Behavioral Analysis [10.06218778776515]
ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。
モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。
また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
論文 参考訳(メタデータ) (2023-11-01T03:15:05Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。