論文の概要: Key Decision-Makers in Multi-Agent Debates: Who Holds the Power?
- arxiv url: http://arxiv.org/abs/2511.11040v1
- Date: Fri, 14 Nov 2025 07:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.48419
- Title: Key Decision-Makers in Multi-Agent Debates: Who Holds the Power?
- Title(参考訳): マルチエージェント・ディベートにおける鍵決定 - 誰が権力を握るのか?
- Authors: Qian Zhang, Yan Zheng, Jinyi Liu, Hebin Liang, Lanjun Wang,
- Abstract要約: 異なる視点で特定の位置に役割を割り当てることがマルチエージェント・ディベート(MAD)のパフォーマンスに大きく影響を与えることを示す。
我々は,MAD性能を最大22%向上させる新たな役割割当戦略である「真実の最後」を見出した。
実運用における未知の真理の問題に対処するため,マルチエージェント・ディベート・コンシステンシー(MADC)戦略を提案する。
- 参考スコア(独自算出の注目度): 21.065994966720226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on LLM agent scaling have highlighted the potential of Multi-Agent Debate (MAD) to enhance reasoning abilities. However, the critical aspect of role allocation strategies remains underexplored. In this study, we demonstrate that allocating roles with differing viewpoints to specific positions significantly impacts MAD's performance in reasoning tasks. Specifically, we find a novel role allocation strategy, "Truth Last", which can improve MAD performance by up to 22% in reasoning tasks. To address the issue of unknown truth in practical applications, we propose the Multi-Agent Debate Consistency (MADC) strategy, which systematically simulates and optimizes its core mechanisms. MADC incorporates path consistency to assess agreement among independent roles, simulating the role with the highest consistency score as the truth. We validated MADC across a range of LLMs (9 models), including the DeepSeek-R1 Distilled Models, on challenging reasoning tasks. MADC consistently demonstrated advanced performance, effectively overcoming MAD's performance bottlenecks and providing a crucial pathway for further improvements in LLM agent scaling.
- Abstract(参考訳): LLMエージェントのスケーリングに関する最近の研究は、推論能力を高めるためのマルチエージェントデリベート(MAD)の可能性を強調している。
しかし、役割割り当て戦略の重要な側面はいまだ解明されていない。
本研究では,異なる視点から特定の位置に役割を割り当てることが,推論タスクにおけるMADのパフォーマンスに大きな影響を与えることを示す。
具体的には,MAD性能を最大22%向上させる新たな役割割当戦略である"Truth Last"を提案する。
そこで本研究では,その中核機構を体系的にシミュレートし,最適化するマルチエージェント・ディベート・コンシステンシー(MADC)戦略を提案する。
MADCは、独立した役割間の合意を評価するために経路整合性を導入し、最も高い整合性スコアを真として役割をシミュレートする。
我々は,DeepSeek-R1 蒸留モデルを含む様々な LLM (9モデル) のMADC を,難解な推論タスクで検証した。
MADCは一貫して高度な性能を示し、MADのパフォーマンスボトルネックを克服し、LLMエージェントのスケーリングをさらに改善するための重要な経路を提供する。
関連論文リスト
- Multi-Agent Debate Strategies to Enhance Requirements Engineering with Large Language Models [3.4829662575293585]
大規模言語モデル(LLM)エージェントは、様々な要求工学(RE)タスクに広く使われている。
精度の向上に関する研究は、主にプロンプトエンジニアリング、モデルファインチューニング、および検索拡張生成に焦点を当てている。
多様な視点を取り入れたREタスクにおいて,人間の議論が正確さを高め,偏見を減少させるのと同じように,様々なLLMエージェントが議論し,協力することで,同様の改善が達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-08T13:37:59Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。