論文の概要: Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs
- arxiv url: http://arxiv.org/abs/2311.17371v2
- Date: Thu, 14 Mar 2024 10:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:02:44.524414
- Title: Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs
- Title(参考訳): MADに進むべきか? LLMのためのマルチエージェント議論戦略
- Authors: Andries Smit, Paul Duckworth, Nathan Grinsztajn, Thomas D. Barrett, Arnu Pretorius,
- Abstract要約: コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
マルチエージェントの議論システムは、現在の形式では、他の提案されたプロンプト戦略を確実に上回っているわけではない。
これらの結果に基づいて、エージェント合意レベルの調整など、議論戦略の改善に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 7.7433783185451075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) underscore their potential for responding to inquiries in various domains. However, ensuring that generative agents provide accurate and reliable answers remains an ongoing challenge. In this context, multi-agent debate (MAD) has emerged as a promising strategy for enhancing the truthfulness of LLMs. We benchmark a range of debating and prompting strategies to explore the trade-offs between cost, time, and accuracy. Importantly, we find that multi-agent debating systems, in their current form, do not reliably outperform other proposed prompting strategies, such as self-consistency and ensembling using multiple reasoning paths. However, when performing hyperparameter tuning, several MAD systems, such as Multi-Persona, perform better. This suggests that MAD protocols might not be inherently worse than other approaches, but that they are more sensitive to different hyperparameter settings and difficult to optimize. We build on these results to offer insights into improving debating strategies, such as adjusting agent agreement levels, which can significantly enhance performance and even surpass all other non-debate protocols we evaluated. We provide an open-source repository to the community with several state-of-the-art protocols together with evaluation scripts to benchmark across popular research datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な領域の問い合わせに応答する可能性を示している。
しかし、生成エージェントが正確で信頼性の高い回答を提供することは、現在も進行中の課題である。
この文脈において、マルチエージェント討論(MAD)はLLMの真正性を高めるための有望な戦略として現れている。
コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
重要なことに、マルチエージェントの議論システムは、現在の形式では、複数の推論経路を用いた自己整合性やアンサンブルといった他の提案された促進戦略を確実に上回っているわけではない。
しかし、ハイパーパラメータチューニングを行う場合、Multi-PersonaのようないくつかのMADシステムはより優れた性能を発揮する。
これはMADプロトコルが本質的に他のアプローチよりも悪いのではなく、異なるハイパーパラメータ設定に敏感であり、最適化が難しいことを示唆している。
これらの結果に基づいて、エージェント合意レベルの調整などの議論戦略の改善に関する洞察を提供し、パフォーマンスを著しく向上させ、評価した他のすべての非議論プロトコルを超えます。
コミュニティには、いくつかの最先端プロトコルと、人気のある研究データセットをベンチマークする評価スクリプトを、オープンソースリポジトリとして提供しています。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Apollo's Oracle: Retrieval-Augmented Reasoning in Multi-Agent Debates [17.55506236329012]
新たなフレームワークであるMulti-Agent Debate with Retrieval Augmented (MADRA)を導入する。
MADRAは、事前知識の検索を議論プロセスに取り入れ、認知的制約を効果的に破る。
我々はこのフレームワーク内で自己選択モジュールを開発し、エージェントが関連する証拠を自律的に選択できるようにする。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent
Negotiation Games [53.927705340086334]
本稿では,大規模言語モデルのための新たな評価フレームワークとして交渉ゲームを提案する。
我々は、エージェントが交渉し、常に成功する取引に到達できることを示します。
これらのゲームは、グリーディと敵プレイヤーの存在下でのエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。