論文の概要: Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?
- arxiv url: http://arxiv.org/abs/2508.17536v1
- Date: Sun, 24 Aug 2025 22:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.57317
- Title: Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?
- Title(参考訳): 議論か投票か: マルチエージェントな大規模言語モデルにおいて、どちらがより良い決定を下すか?
- Authors: Hyeong Kyu Choi, Xiaojin Zhu, Yixuan Li,
- Abstract要約: マルチエージェント・ディベート(MAD)は,大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。
近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。
我々はMajority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し、それぞれのコントリビューションを評価する。
- 参考スコア(独自算出の注目度): 24.932437142359305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Agent Debate~(MAD) has emerged as a promising paradigm for improving the performance of large language models through collaborative reasoning. Despite recent advances, the key factors driving MAD's effectiveness remain unclear. In this work, we disentangle MAD into two key components--Majority Voting and inter-agent Debate--and assess their respective contributions. Through extensive experiments across seven NLP benchmarks, we find that Majority Voting alone accounts for most of the performance gains typically attributed to MAD. To explain this, we propose a theoretical framework that models debate as a stochastic process. We prove that it induces a martingale over agents' belief trajectories, implying that debate alone does not improve expected correctness. Guided by these insights, we demonstrate that targeted interventions, by biasing the belief update toward correction, can meaningfully enhance debate effectiveness. Overall, our findings suggest that while MAD has potential, simple ensembling methods remain strong and more reliable alternatives in many practical settings. Code is released in https://github.com/deeplearning-wisc/debate-or-vote.
- Abstract(参考訳): Multi-Agent Debate~(MAD)は,協調推論による大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。
近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。
本研究では,Majority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し,それぞれのコントリビューションを評価する。
7つのNLPベンチマークにわたる広範な実験により、Majority VotingだけがMADに起因するパフォーマンス向上の大部分を担っていることがわかった。
これを説明するために,議論を確率的プロセスとしてモデル化する理論的枠組みを提案する。
エージェントの信念に対するマーチンゲールを誘発し、議論だけでは期待された正確さを改善できないことを示唆する。
これらの知見に導かれて、信念更新を修正に向けてバイアスすることで、目的の介入が議論の有効性を有意義に向上させることを実証した。
全体として、MADには潜在的な可能性はあるが、多くの実践的な環境では、単純なアンサンブル手法が強力で信頼性の高い代替手段として残されていることが示唆されている。
コードはhttps://github.com/deeplearning-wisc/debate-or-vote.orgで公開されている。
関連論文リスト
- Debating Truth: Debate-driven Claim Verification with Multiple Large Language Model Agents [13.626715532559079]
複数のLLMエージェントを用いた議論駆動手法を採用した最初のクレーム検証フレームワークであるDebateCVを提案する。
本フレームワークでは,2つのデバタがクレームに対して反対の立場をとり,複数ラウンドの議論を行う一方,モデレーターは議論を評価し,正当化とともに評決を行う。
実験の結果,提案手法は,証拠品質の異なる既存のクレーム検証方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-25T09:19:25Z) - CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate [11.155092859033784]
単一大言語モデル(LLM)の問題を緩和するための効果的な戦略としてマルチエージェント議論(MAD)が登場した。
既存のMAD手法では、 (a) LLMエージェントが多くの入力情報に紛失し、性能低下を経験する、 (b) 自信過剰なジレンマ(自己保証LDMエージェントが議論を支配し、議論の有効性を低くする、という2つの問題に直面している。
そこで我々は,ヒトの脳に着想を得た新しいMAD手法"CortexDebate"を提案する。
論文 参考訳(メタデータ) (2025-07-05T07:23:15Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - ACC-Collab: An Actor-Critic Approach to Multi-Agent LLM Collaboration [20.040543142468344]
ACC-CollabはActor-Criticベースの学習フレームワークで、コラボレーションに特化した2エージェントチームを生成する。
ACC-Collabは、幅広いベンチマークでSotAマルチエージェント技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-30T19:09:02Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。