Fugu-MT 論文翻訳(概要): BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems

論文の概要: BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems

arxiv url: http://arxiv.org/abs/2408.15971v1
Date: Wed, 28 Aug 2024 17:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 14:59:16.352906
Title: BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems
Title（参考訳）: BattleAgentBench:マルチエージェントシステムにおける言語モデルの協調性と競合能力の評価ベンチマーク
Authors: Wei Wang, Dan Zhang, Tao Feng, Boyan Wang, Jie Tang,
Abstract要約: 大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
参考スコア（独自算出の注目度）: 15.159418172629701
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are becoming increasingly powerful and capable of handling complex tasks, e.g., building single agents and multi-agent systems. Compared to single agents, multi-agent systems have higher requirements for the collaboration capabilities of language models. Many benchmarks are proposed to evaluate their collaborative abilities. However, these benchmarks lack fine-grained evaluations of LLM collaborative capabilities. Additionally, multi-agent collaborative and competitive scenarios are ignored in existing works. To address these two problems, we propose a benchmark, called BattleAgentBench, which defines seven sub-stages of three varying difficulty levels and conducts a fine-grained evaluation of language models in terms of single-agent scenario navigation capabilities, paired-agent task execution abilities, and multi-agent collaboration and competition capabilities. We conducted extensive evaluations on leading four closed-source and seven open-source models. Experimental results indicate that API-based models perform excellently on simple tasks but open-source small models struggle with simple tasks. Regarding difficult tasks that require collaborative and competitive abilities, although API-based models have demonstrated some collaborative capabilities, there is still enormous room for improvement.
Abstract（参考訳）: 大規模言語モデル(LLM)はますます強力になり、例えば単一のエージェントやマルチエージェントシステムを構築するといった複雑なタスクを処理できるようになる。シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。協調能力を評価するために多くのベンチマークが提案されている。しかし、これらのベンチマークはLLM協調能力のきめ細かい評価を欠いている。さらに、既存の作業では、マルチエージェントのコラボレーションと競争のシナリオは無視されます。これら2つの問題に対処するため,我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案し,単一エージェントシナリオナビゲーション機能,ペアエージェントタスク実行機能,マルチエージェントコラボレーションと競合機能の観点から,言語モデルのきめ細かい評価を行う。我々は4つのクローズドソースモデルと7つのオープンソースモデルについて広範な評価を行った。実験結果から,APIベースのモデルは単純なタスクでは優れた性能を発揮するが,オープンソースの小さなモデルでは単純なタスクには耐え難いことが示唆された。協調的かつ競争的な能力を必要とする困難なタスクに関しては、APIベースのモデルはいくつかの協調的な機能を示しているが、改善の余地は依然として大きい。

関連論文リスト

Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。 4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文参考訳（メタデータ） (2025-08-05T12:52:09Z)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳（メタデータ） (2025-05-29T07:24:37Z)
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning [29.580108004844856]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-14T00:27:45Z)
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文参考訳（メタデータ） (2024-12-20T09:21:15Z)
Towards Effective GenAI Multi-Agent Collaboration: Design and Evaluation for Enterprise Applications [15.480315462362531]
本稿では,新しいマルチエージェント協調フレームワークにおける協調とルーティング機能に関する総合的な評価について述べる。コーディネート機能として,エージェント間通信とペイロード参照機構の有効性を実証し,エンドツーエンドの目標達成率を90%とする。マルチエージェントコラボレーションは,ベンチマークの単一エージェントアプローチと比較して,目標達成率を最大70%向上させる。
論文参考訳（メタデータ） (2024-12-06T22:14:17Z)
COMMA: A Communicative Multimodal Multi-Agent Benchmark [7.831385481814481]
本稿では,言語コミュニケーションによるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを提案する。オープンソースモデルとクローズドソースモデルを用いてエージェントエージェントとエージェント-ヒューマンのコラボレーションをテストすることにより、最先端モデルにおける驚くほどの弱点が明らかとなった。
論文参考訳（メタデータ） (2024-10-10T02:49:47Z)
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。我々は、LLMベースのフレームワークであるGenAgentを紹介した。その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文参考訳（メタデータ） (2024-06-11T11:02:04Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文参考訳（メタデータ） (2023-10-31T03:37:11Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文参考訳（メタデータ） (2023-08-21T16:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。