Fugu-MT 論文翻訳(概要): Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?

論文の概要: Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?

arxiv url: http://arxiv.org/abs/2508.17536v2
Date: Thu, 23 Oct 2025 05:44:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:09.423956
Title: Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?
Title（参考訳）: 議論か投票か: マルチエージェントな大規模言語モデルにおいて、どちらがより良い決定を下すか?
Authors: Hyeong Kyu Choi, Xiaojin Zhu, Sharon Li,
Abstract要約: マルチエージェント・ディベート(MAD)は,大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。我々はMajority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し、それぞれのコントリビューションを評価する。
参考スコア（独自算出の注目度）: 13.569822165805851
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-Agent Debate~(MAD) has emerged as a promising paradigm for improving the performance of large language models through collaborative reasoning. Despite recent advances, the key factors driving MAD's effectiveness remain unclear. In this work, we disentangle MAD into two key components--Majority Voting and inter-agent Debate--and assess their respective contributions. Through extensive experiments across seven NLP benchmarks, we find that Majority Voting alone accounts for most of the performance gains typically attributed to MAD. To explain this, we propose a theoretical framework that models debate as a stochastic process. We prove that it induces a martingale over agents' belief trajectories, implying that debate alone does not improve expected correctness. Guided by these insights, we demonstrate that targeted interventions, by biasing the belief update toward correction, can meaningfully enhance debate effectiveness. Overall, our findings suggest that while MAD has potential, simple ensembling methods remain strong and more reliable alternatives in many practical settings. Code is released in https://github.com/deeplearning-wisc/debate-or-vote.
Abstract（参考訳）: Multi-Agent Debate~(MAD)は,協調推論による大規模言語モデルの性能向上のための,有望なパラダイムとして登場した。近年の進歩にもかかわらず、MADの有効性を左右する重要な要因はいまだ不明である。本研究では,Majority VotingとInter-agent Debateの2つの重要なコンポーネントにMADを分解し,それぞれのコントリビューションを評価する。 7つのNLPベンチマークにわたる広範な実験により、Majority VotingだけがMADに起因するパフォーマンス向上の大部分を担っていることがわかった。これを説明するために,議論を確率的プロセスとしてモデル化する理論的枠組みを提案する。エージェントの信念に対するマーチンゲールを誘発し、議論だけでは期待された正確さを改善できないことを示唆する。これらの知見に導かれて、信念更新を修正に向けてバイアスすることで、目的の介入が議論の有効性を有意義に向上させることを実証した。全体として、MADには潜在的な可能性はあるが、多くの実践的な環境では、単純なアンサンブル手法が強力で信頼性の高い代替手段として残されていることが示唆されている。コードはhttps://github.com/deeplearning-wisc/debate-or-vote.orgで公開されている。

関連論文リスト

DynaDebate: Breaking Homogeneity in Multi-Agent Debate with Dynamic Path Generation [47.62978918069135]
DynaDebate (Dynamic Multi-Agent Debate) を導入し,3つのキーメカニズムによるマルチエージェント討論の有効性を高める。大規模な実験により、DynaDebateは既存の最先端のMADメソッドを超越して、様々なベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-01-09T12:01:33Z)
Demystifying Multi-Agent Debate: The Role of Confidence and Diversity [31.236476720977294]
マルチエージェントディベート(MAD)は、テスト時間スケーリングによる大規模言語モデル(LLM)のパフォーマンス向上に広く利用されている。最近の研究では、バニラMADは計算コストが高いにもかかわらず単純な多数決を下回っていることが示されている。我々は,バニラMADから欠落する2つの主要なメカニズムを同定する: (i) 初期視点の多様性と (ii) 明示的で校正された信頼コミュニケーション。
論文参考訳（メタデータ） (2026-01-09T02:38:30Z)
iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference [11.86992814928132]
マルチエージェント・ディベート(MAD)は、構造化された議論に複数のエージェントを関与させる有望なフレームワークとして登場した。トークン効率の高いフレームワークであるインテリジェントマルチエージェント・ディベート(iMAD)を提案する。 iMADはトークン使用率(最大92%)を大幅に削減し、最終回答精度(最大13.5%)も向上することを示した。
論文参考訳（メタデータ） (2025-11-14T13:50:51Z)
Towards Scalable Oversight with Collaborative Multi-Agent Debate in Error Detection [81.52796950244705]
自己診断は、信頼できる外部からのフィードバックがなければ、複雑なタスクでは信頼できない。我々は,新たなコラボレーティブMADプロトコルであるColMADを導入し,MADを非ゼロ和ゲームとして再構成する。 ColMADは従来の競合MADよりも19%優れていた。
論文参考訳（メタデータ） (2025-10-23T19:46:00Z)
MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文参考訳（メタデータ） (2025-10-07T06:27:42Z)
Enhancing Multi-Agent Debate System Performance via Confidence Expression [55.34012400580016]
マルチエージェント・ディベート(MAD)システムは人間の議論をシミュレートし、タスク性能を向上させる。一部の大規模言語モデル(LLM)は、特定のタスクに対して優れた知識や推論能力を持っているが、議論の間、この利点を明確に伝えるのに苦労している。不適切な信頼表現は、MADシステムのエージェントが、不適切な信念を頑固に維持するか、あるいは最適でない答えに早急に収束させる可能性がある。我々は,議論プロセス全体を通して信頼表現を統合するMADフレームワークConfMADを開発した。
論文参考訳（メタデータ） (2025-09-17T14:34:27Z)
Free-MAD: Consensus-Free Multi-Agent Debate [17.384699873512464]
マルチエージェント討論(MAD)は、大規模言語モデル(LLM)の推論能力を改善するための新しいアプローチである。既存のMADメソッドは、合意に達するためにエージェント間の複数ラウンドの相互作用に依存しており、最終的な出力は前回のラウンドで多数決によって選択される。エージェント間のコンセンサスを必要としない新しいMADフレームワークであるtextscFree-MADを提案する。
論文参考訳（メタデータ） (2025-09-14T01:55:01Z)
Debating Truth: Debate-driven Claim Verification with Multiple Large Language Model Agents [13.626715532559079]
複数のLLMエージェントを用いた議論駆動手法を採用した最初のクレーム検証フレームワークであるDebateCVを提案する。本フレームワークでは,2つのデバタがクレームに対して反対の立場をとり,複数ラウンドの議論を行う一方,モデレーターは議論を評価し,正当化とともに評決を行う。実験の結果,提案手法は,証拠品質の異なる既存のクレーム検証方法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-25T09:19:25Z)
CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate [11.155092859033784]
単一大言語モデル(LLM)の問題を緩和するための効果的な戦略としてマルチエージェント議論(MAD)が登場した。既存のMAD手法では、 (a) LLMエージェントが多くの入力情報に紛失し、性能低下を経験する、 (b) 自信過剰なジレンマ(自己保証LDMエージェントが議論を支配し、議論の有効性を低くする、という2つの問題に直面している。そこで我々は,ヒトの脳に着想を得た新しいMAD手法"CortexDebate"を提案する。
論文参考訳（メタデータ） (2025-07-05T07:23:15Z)
Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文参考訳（メタデータ） (2025-02-12T21:01:10Z)
ACC-Collab: An Actor-Critic Approach to Multi-Agent LLM Collaboration [20.040543142468344]
ACC-CollabはActor-Criticベースの学習フレームワークで、コラボレーションに特化した2エージェントチームを生成する。 ACC-Collabは、幅広いベンチマークでSotAマルチエージェント技術より優れていることを示す。
論文参考訳（メタデータ） (2024-10-30T19:09:02Z)
DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文参考訳（メタデータ） (2024-07-08T22:15:01Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。