論文の概要: Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity
- arxiv url: http://arxiv.org/abs/2502.08788v3
- Date: Sat, 21 Jun 2025 09:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.186615
- Title: Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity
- Title(参考訳): マルチエージェントの議論の過大評価をやめて -我々は評価とエンブレスモデルの不均一性を再考する必要がある
- Authors: Hangfan Zhang, Zhiyao Cui, Jianhao Chen, Xinrun Wang, Qiaosheng Zhang, Zhen Wang, Dinghao Wu, Shuyue Hu,
- Abstract要約: マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
- 参考スコア(独自算出の注目度): 20.408720462383158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent debate (MAD) has gained significant attention as a promising line of research to improve the factual accuracy and reasoning capabilities of large language models (LLMs). Despite its conceptual appeal, current MAD research suffers from critical limitations in evaluation practices, including limited benchmark coverage, weak baseline comparisons, and inconsistent setups. This paper presents a systematic evaluation of 5 representative MAD methods across 9 benchmarks using 4 foundational models. Surprisingly, our findings reveal that MAD often fail to outperform simple single-agent baselines such as Chain-of-Thought and Self-Consistency, even when consuming significantly more inference-time computation. To advance MAD research, we further explore the role of model heterogeneity and find it as a universal antidote to consistently improve current MAD frameworks. Based on our findings, we argue that the field must stop overvaluing MAD in its current form; for true advancement, we must critically rethink evaluation paradigms and actively embrace model heterogeneity as a core design principle.
- Abstract(参考訳): マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
その概念的魅力にもかかわらず、現在のMAD研究は、限られたベンチマークカバレッジ、弱いベースライン比較、一貫性のない設定など、評価プラクティスの限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
意外なことに、MADは推論時間計算を著しく消費しても、Chain-of-ThoughtやSelf-Consistencyといった単純な単一エージェントベースラインを上回りません。
我々は、MAD研究を進めるために、モデル不均一性の役割をさらに探求し、現在のMADフレームワークを継続的に改善するための普遍的な解毒剤として見いだす。
本研究は,本研究の成果から,MADの過度な評価は止めるべきであり,真の進歩には,評価パラダイムを再考し,モデルの不均一性を中心設計原則として積極的に取り入れなければならない。
関連論文リスト
- MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Is Multi-Agent Debate (MAD) the Silver Bullet? An Empirical Analysis of MAD in Code Summarization and Translation [10.038721196640864]
マルチエージェント・ディベート (MAD) システムは,大規模言語モデル (LLM) 間の構造化された議論を可能にする
MADは、役割特異的なエージェント、動的相互作用、構造化された意思決定を通じて、散発的な思考を促進する。
本研究では,2つのソフトウェア工学(SE)タスクにおけるMADの有効性について検討する。
論文 参考訳(メタデータ) (2025-03-15T07:30:37Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - M-MAD: Multidimensional Multi-Agent Debate Framework for Fine-grained Machine Translation Evaluation [12.042804590050089]
多次元マルチエージェント・ディベート(Multidimensional Multi-Agent Debate, M-MAD)は、機械翻訳評価のための体系的LLMベースのマルチエージェントフレームワークである。
その結果,M-MAD は(1) MQM 基準を細粒度評価のための異なる評価次元に分解することにより,顕著な進歩を達成できることが示唆された。
総合的な実験により、M-MADは既存のLCM-as-a-judge法よりも優れているだけでなく、最先端の参照ベースの自動メトリクスと競合することが示された。
論文 参考訳(メタデータ) (2024-12-28T12:11:28Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs [7.7433783185451075]
コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
マルチエージェントの議論システムは、現在の形式では、他の提案されたプロンプト戦略を確実に上回っているわけではない。
これらの結果に基づいて、エージェント合意レベルの調整など、議論戦略の改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-11-29T05:54:41Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。