論文の概要: Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
- arxiv url: http://arxiv.org/abs/2601.19921v1
- Date: Fri, 09 Jan 2026 02:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.538387
- Title: Demystifying Multi-Agent Debate: The Role of Confidence and Diversity
- Title(参考訳): マルチエージェントの議論の謎化:信頼と多様性の役割
- Authors: Xiaochen Zhu, Caiqi Zhang, Yizhou Chi, Tom Stafford, Nigel Collier, Andreas Vlachos,
- Abstract要約: マルチエージェントディベート(MAD)は、テスト時間スケーリングによる大規模言語モデル(LLM)のパフォーマンス向上に広く利用されている。
最近の研究では、バニラMADは計算コストが高いにもかかわらず単純な多数決を下回っていることが示されている。
我々は,バニラMADから欠落する2つの主要なメカニズムを同定する: (i) 初期視点の多様性と (ii) 明示的で校正された信頼コミュニケーション。
- 参考スコア(独自算出の注目度): 31.236476720977294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent debate (MAD) is widely used to improve large language model (LLM) performance through test-time scaling, yet recent work shows that vanilla MAD often underperforms simple majority vote despite higher computational cost. Studies show that, under homogeneous agents and uniform belief updates, debate preserves expected correctness and therefore cannot reliably improve outcomes. Drawing on findings from human deliberation and collective decision-making, we identify two key mechanisms missing from vanilla MAD: (i) diversity of initial viewpoints and (ii) explicit, calibrated confidence communication. We propose two lightweight interventions. First, a diversity-aware initialisation that selects a more diverse pool of candidate answers, increasing the likelihood that a correct hypothesis is present at the start of debate. Second, a confidence-modulated debate protocol in which agents express calibrated confidence and condition their updates on others' confidence. We show theoretically that diversity-aware initialisation improves the prior probability of MAD success without changing the underlying update dynamics, while confidence-modulated updates enable debate to systematically drift to the correct hypothesis. Empirically, across six reasoning-oriented QA benchmarks, our methods consistently outperform vanilla MAD and majority vote. Our results connect human deliberation with LLM-based debate and demonstrate that simple, principled modifications can substantially enhance debate effectiveness.
- Abstract(参考訳): マルチエージェント討論(MAD)は、テスト時間スケーリングによる大規模言語モデル(LLM)のパフォーマンス向上に広く利用されているが、最近の研究では、計算コストが高いにもかかわらず、バニラMADが単純な多数決を下回っていることが示されている。
研究によると、均質なエージェントと一様な信念の更新の下では、議論は期待された正しさを保ち、その結果を確実に改善することはできない。
バニラMADから欠落する2つの主要なメカニズムをヒトの熟考と集団意思決定から抽出した。
一 初期視点の多様性及び
(二)明快で校正された信頼コミュニケーション。
我々は2つの軽量な介入を提案する。
まず、より多様な回答のプールを選択する多様性を意識した初期化を行い、議論の開始時に正しい仮説が存在する可能性を高める。
第二に、エージェントが調整された信頼を表現し、他人の信頼に更新を条件付ける信頼変調討論プロトコルである。
多様性を意識した初期化は、基礎となる更新のダイナミクスを変えることなく、MADの成功の事前確率を向上する一方、信頼度を変調した更新は、議論を正しい仮説に体系的にドリフトさせることができることを示す。
実証的には、6つの推論指向のQAベンチマークにおいて、我々の方法はバニラMADと多数決を一貫して上回っている。
本研究は,人間による議論とLLMに基づく議論を結びつけ,シンプルで原則化された修正が議論の有効性を大幅に向上させることを示した。
関連論文リスト
- Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。
我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。
ColMADは従来の競合MADよりも19%優れていた。
論文 参考訳(メタデータ) (2025-10-23T19:46:00Z) - Enhancing Multi-Agent Debate System Performance via Confidence Expression [55.34012400580016]
マルチエージェント・ディベート(MAD)システムは人間の議論をシミュレートし、タスク性能を向上させる。
一部の大規模言語モデル(LLM)は、特定のタスクに対して優れた知識や推論能力を持っているが、議論の間、この利点を明確に伝えるのに苦労している。
不適切な信頼表現は、MADシステムのエージェントが、不適切な信念を頑固に維持するか、あるいは最適でない答えに早急に収束させる可能性がある。
我々は,議論プロセス全体を通して信頼表現を統合するMADフレームワークConfMADを開発した。
論文 参考訳(メタデータ) (2025-09-17T14:34:27Z) - Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models? [13.569822165805851]
マルチエージェント・ディベート(MAD)は,大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。
近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。
我々はMajority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し、それぞれのコントリビューションを評価する。
論文 参考訳(メタデータ) (2025-08-24T22:14:32Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。