論文の概要: The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation
- arxiv url: http://arxiv.org/abs/2606.03032v1
- Date: Tue, 02 Jun 2026 02:15:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.691351
- Title: The Deliberative Illusion: Diagnosing Factual Attrition and Stance Homogenization in Multi-Agent LLM Deliberation
- Title(参考訳): 熟考:多エージェントLDM熟考における実測とスタンス均質化の診断
- Authors: Herun Wan, Jiaying Wu, Minnan Luo, Fanxiao Li, Ningnan Wang, Nancy F. Chen, Min-Yen Kan,
- Abstract要約: 問題クリティカルな事実の最大72%を,マルチエージェントによる議論で消し去ることを示す。
保持された証拠は誤解を招くことなく問題を再構築し、最終的なスタンスをベースモデルに固定し、単一の悪意のあるエージェントが誤った情報を共有コンテキストに注入することができる。
我々は、どの事実、不確実性、正当な不一致が相互作用を生き残るかを測定する評価を求める。
- 参考スコア(独自算出の注目度): 68.98390038721963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent LLM systems often treat consensus as evidence of successful interaction. For deliberative problems, however, reliability depends on whether agents preserve the facts and viewpoints needed to interpret an issue. We identify the deliberative illusion: discussion produces (1) factual attrition, the progressive loss of issue-critical facts, alongside (2) stance homogenization, the collapse of diverse positions toward consensus. To measure this process, we introduce DelibTrace, a framework that decomposes each issue into atomic facts, labels issue-critical ones, distributes them across agents, and tracks their survival across discussion rounds. Across ethical and news-based deliberation with three representative LLM families, multi-agent discussion erases up to 72% of issue-critical facts. This loss is consequential: retained evidence can reconstruct the issue misleadingly, final stances remain anchored in base-model priors, and a single malicious agent can inject misinformation into the shrinking shared context. These results reveal a sharper risk: agents can agree more while knowing less. We call for evaluations that measure which facts, uncertainties, and legitimate disagreements survive interaction.
- Abstract(参考訳): マルチエージェントLLMシステムは、しばしば合意を対話が成功した証拠として扱う。
しかしながら、議論的な問題に対しては、信頼性は、エージェントが問題を解釈するために必要な事実と視点を保存するかどうかに依存する。
議論は(1)事実の誘惑、問題クリティカルな事実の進歩的な喪失、(2)同質化の姿勢、そして合意に向けた多様な立場の崩壊を生み出す。
このプロセスを測定するために,各問題をアトミックな事実に分解し,問題クリティカルな事実をラベル付けし,エージェントに分散し,議論ラウンドを通じてその生存をトラッキングするフレームワークであるDelibTraceを紹介した。
倫理的およびニュースに基づく3つのLLMファミリーとの議論の中で、マルチエージェントの議論は、問題クリティカルな事実の最大72%を消している。
保持された証拠は誤解を招くことなく問題を再構築し、最終的なスタンスをベースモデルに固定し、単一の悪意のあるエージェントが誤った情報を共有コンテキストに注入することができる。
これらの結果は、エージェントがより少ない知識でより同意できるという、より厳しいリスクを浮き彫りにしている。
我々は、どの事実、不確実性、正当な不一致が相互作用を生き残るかを測定する評価を求める。
関連論文リスト
- Quantifying Conversational Reliability of Large Language Models under Multi-Turn Interaction [0.0]
大きな言語モデル(LLM)は、ユーザが拡張された混合トピックの会話を行う現実世界のアプリケーションに、ますます多くデプロイされている。
我々は,3つの代表課題を通じて,会話の信頼性を体系的に評価する。
我々は信頼性の大幅な低下、特により小さなモデルについて観察する。
論文 参考訳(メタデータ) (2026-03-02T03:59:40Z) - Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - The Sum Leaks More Than Its Parts: Compositional Privacy Risks and Mitigations in Multi-Agent Collaboration [72.33801123508145]
大規模言語モデル(LLM)はマルチエージェントシステムに不可欠なものである。
プライバシーリスクは、暗記、直接推論、シングルターン評価を超えて現れる。
特に、相互作用によって構成される一見無害な反応は、敵が機密情報の回復を累積的に行うことができる。
論文 参考訳(メタデータ) (2025-09-16T16:57:25Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Breaking Event Rumor Detection via Stance-Separated Multi-Agent Debate [21.342632695285364]
噂検出のために大きな言語モデル(LLM)を活用することは、大きな約束である。
本稿では,S2MAD(Stance Separated Multi-Agent Debate)を提案する。
提案手法は性能の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-06T08:52:30Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。