論文の概要: Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification
- arxiv url: http://arxiv.org/abs/2603.28488v1
- Date: Mon, 30 Mar 2026 14:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.441383
- Title: Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification
- Title(参考訳): プログレッシブRAGとロールスイッチングを併用した法廷型マルチエージェント議論による論争的クレームの検証
- Authors: Masnun Nuha Chowdhury, Nusrat Jahan Beg, Umme Hunny Khan, Syed Rifat Raiyan, Md Kamrul Hasan, Hasan Mahmud,
- Abstract要約: 大型言語モデル (LLM) は、幻覚や浅い推論のため、高い精度のクレーム検証には信頼できないままである。
本稿では, 検証を構造化された, 反対の審議会として再編成する, 裁判所方式のマルチエージェントフレームワーク PROClaim を提案する。
提案手法は,プログレッシブRAG (Progressive RAG, P-RAG) と特別な役割(プレーンティフ, ディフェンス, ジャッジ)を統合し, 議論の間, 証拠プールを動的に拡大・洗練する。
- 参考スコア(独自算出の注目度): 2.464003792743989
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) remain unreliable for high-stakes claim verification due to hallucinations and shallow reasoning. While retrieval-augmented generation (RAG) and multi-agent debate (MAD) address this, they are limited by one-pass retrieval and unstructured debate dynamics. We propose a courtroom-style multi-agent framework, PROClaim, that reformulates verification as a structured, adversarial deliberation. Our approach integrates specialized roles (e.g., Plaintiff, Defense, Judge) with Progressive RAG (P-RAG) to dynamically expand and refine the evidence pool during the debate. Furthermore, we employ evidence negotiation, self-reflection, and heterogeneous multi-judge aggregation to enforce calibration, robustness, and diversity. In zero-shot evaluations on the Check-COVID benchmark, PROClaim achieves 81.7% accuracy, outperforming standard multi-agent debate by 10.0 percentage points, with P-RAG driving the primary performance gains (+7.5 pp). We ultimately demonstrate that structural deliberation and model heterogeneity effectively mitigate systematic biases, providing a robust foundation for reliable claim verification. Our code and data are publicly available at https://github.com/mnc13/PROClaim.
- Abstract(参考訳): 大型言語モデル (LLM) は、幻覚や浅い推論のため、高い精度のクレーム検証には信頼できないままである。
検索強化世代 (RAG) とマルチエージェント論争 (MAD) はこれに対処するが、それらは1パスの検索と非構造化の議論ダイナミクスによって制限される。
本稿では, 検証を構造化された, 反対の審議会として再編成する, 裁判所方式のマルチエージェントフレームワーク PROClaim を提案する。
提案手法は,プログレッシブRAG(Progressive RAG, P-RAG)と特別な役割(例:Plaintiff, Defense, Judge)を統合し,議論中にエビデンスプールを動的に拡張・洗練する。
さらに,キャリブレーション,ロバスト性,多様性を強制するために,エビデンス交渉,自己回帰,異質なマルチジャッジアグリゲーションを採用する。
Check-COVIDベンチマークのゼロショット評価では、PropClaimは81.7%の精度を達成し、標準マルチエージェントの議論を10.0ポイント上回った。
構造検討とモデルヘテロジニティが体系的バイアスを効果的に軽減し、信頼性の高いクレーム検証のための堅牢な基盤を提供することを最終的に実証する。
私たちのコードとデータはhttps://github.com/mnc13/PROClaim.comで公開されています。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Exploring Health Misinformation Detection with Multi-Agent Debate [0.11470070927586014]
健康情報検出のための2段階の枠組みを提案する。
第1段階では,検索した記事を独立に評価するために,大規模言語モデル (LLM) を用いる。
このスコアが、事前定義された閾値以下のコンセンサスフォールが不十分であることを示すと、システムは第2段階に進む。
複数のエージェントが構造化された議論を行い、矛盾する証拠を合成し、明確な正当性を持つ十分な評決を生成する。
論文 参考訳(メタデータ) (2025-11-29T12:39:30Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。