論文の概要: COMMA: A Communicative Multimodal Multi-Agent Benchmark
- arxiv url: http://arxiv.org/abs/2410.07553v1
- Date: Thu, 10 Oct 2024 02:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:16:17.245968
- Title: COMMA: A Communicative Multimodal Multi-Agent Benchmark
- Title(参考訳): COMMA: マルチモーダルマルチエージェントベンチマーク
- Authors: Timothy Ossowski, Jixuan Chen, Danyal Maqbool, Zefan Cai, Tyler Bradshaw, Junjie Hu,
- Abstract要約: 本稿では,言語コミュニケーションによるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを提案する。
オープンソースモデルとクローズドソースモデルを用いてエージェントエージェントとエージェント-ヒューマンのコラボレーションをテストすることにより、最先端モデルにおける驚くほどの弱点が明らかとなった。
- 参考スコア(独自算出の注目度): 7.831385481814481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advances of multi-modal agents built on large foundation models have largely overlooked their potential for language-based communication between agents in collaborative tasks. This oversight presents a critical gap in understanding their effectiveness in real-world deployments, particularly when communicating with humans. Existing agentic benchmarks fail to address key aspects of inter-agent communication and collaboration, particularly in scenarios where agents have unequal access to information and must work together to achieve tasks beyond the scope of individual capabilities. To fill this gap, we introduce a novel benchmark designed to evaluate the collaborative performance of multimodal multi-agent systems through language communication. Our benchmark features a variety of scenarios, providing a comprehensive evaluation across four key categories of agentic capability in a communicative collaboration setting. By testing both agent-agent and agent-human collaborations using open-source and closed-source models, our findings reveal surprising weaknesses in state-of-the-art models, including proprietary models like GPT-4o. These models struggle to outperform even a simple random agent baseline in agent-agent collaboration and only surpass the random baseline when a human is involved.
- Abstract(参考訳): 大規模基盤モデルに基づくマルチモーダルエージェントの急速な進歩は、協調作業におけるエージェント間の言語ベースのコミュニケーションの可能性を大きく見落としている。
この監視は、特に人間とのコミュニケーションにおいて、実世界のデプロイメントにおける有効性を理解する上で、重要なギャップを生じさせる。
既存のエージェントベンチマークは、エージェント間のコミュニケーションとコラボレーションの重要な側面、特にエージェントが情報へのアクセスに不平等であり、個々の能力の範囲を超えてタスクを達成するために協力する必要があるシナリオに対処できない。
このギャップを埋めるために,言語通信によるマルチモーダルマルチエージェントシステムの協調性能を評価するための新しいベンチマークを導入する。
我々のベンチマークは様々なシナリオを特徴とし、コミュニケーション・コラボレーション・セッティングにおけるエージェント能力の4つの重要なカテゴリを包括的に評価する。
オープンソースモデルとクローズドソースモデルを用いてエージェントエージェントとエージェント-ヒューマンのコラボレーションをテストすることにより、GPT-4oのようなプロプライエタリモデルを含む最先端モデルの驚くべき弱点が明らかとなった。
これらのモデルは、エージェントエージェントとエージェントのコラボレーションにおいて単純なランダムエージェントベースラインよりも優れており、人間が関わるときだけランダムベースラインを超えている。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems [15.159418172629701]
大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。
シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。
我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-28T17:43:55Z) - Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Multi-Agent Consensus Seeking via Large Language Models [6.922356864800498]
大規模言語モデル(LLM)によって駆動されるマルチエージェントシステムは、複雑なタスクを協調的に解決する有望な能力を示している。
この研究は、マルチエージェントコラボレーションにおける根本的な問題であるコンセンサス探索について考察する。
論文 参考訳(メタデータ) (2023-10-31T03:37:11Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z) - Learning Individually Inferred Communication for Multi-Agent Cooperation [37.56115000150748]
我々はエージェントエージェントがエージェントエージェントコミュニケーションの事前学習を可能にするために、個別推論通信(I2C)を提案する。
先行知識は因果推論によって学習され、フィードフォワードニューラルネットワークによって実現される。
I2Cは通信オーバーヘッドを減らすだけでなく、様々なマルチエージェント協調シナリオのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-06-11T14:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。