論文の概要: CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale
- arxiv url: http://arxiv.org/abs/2507.05178v1
- Date: Mon, 07 Jul 2025 16:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.51859
- Title: CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale
- Title(参考訳): CREW-WILDFIRE: 大規模エージェント多エージェントコラボレーションのベンチマーク
- Authors: Jonathan Hyun, Nicholas R Waytowich, Boyuan Chen,
- Abstract要約: 我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。
CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。
我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
- 参考スコア(独自算出の注目度): 4.464959191643012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite rapid progress in large language model (LLM)-based multi-agent systems, current benchmarks fall short in evaluating their scalability, robustness, and coordination capabilities in complex, dynamic, real-world tasks. Existing environments typically focus on small-scale, fully observable, or low-complexity domains, limiting their utility for developing and assessing next-generation multi-agent Agentic AI frameworks. We introduce CREW-Wildfire, an open-source benchmark designed to close this gap. Built atop the human-AI teaming CREW simulation platform, CREW-Wildfire offers procedurally generated wildfire response scenarios featuring large maps, heterogeneous agents, partial observability, stochastic dynamics, and long-horizon planning objectives. The environment supports both low-level control and high-level natural language interactions through modular Perception and Execution modules. We implement and evaluate several state-of-the-art LLM-based multi-agent Agentic AI frameworks, uncovering significant performance gaps that highlight the unsolved challenges in large-scale coordination, communication, spatial reasoning, and long-horizon planning under uncertainty. By providing more realistic complexity, scalable architecture, and behavioral evaluation metrics, CREW-Wildfire establishes a critical foundation for advancing research in scalable multi-agent Agentic intelligence. All code, environments, data, and baselines will be released to support future research in this emerging domain.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのマルチエージェントシステムの急速な進歩にもかかわらず、現在のベンチマークでは、複雑で動的、現実的なタスクにおけるスケーラビリティ、堅牢性、調整能力の評価に不足している。
既存の環境は通常、小規模、完全可観測性、または低複雑さのドメインに重点を置いており、次世代のマルチエージェントエージェントAIフレームワークの開発と評価のためのユーティリティを制限している。
このギャップを埋めるために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介します。
CREW-Wildfireは、人間のAIチームによるCREWシミュレーションプラットフォーム上に構築され、大規模なマップ、異種エージェント、部分観測性、確率力学、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。
この環境は、モジュール型のPerceptionとExecutionモジュールを通じて、低レベルの制御と高レベルの自然言語インタラクションの両方をサポートする。
我々は、大規模コーディネーション、コミュニケーション、空間的推論、不確実性の下での長期計画における未解決の課題を浮き彫りにする、最先端のLLMベースのエージェントAIフレームワークをいくつか実装し、評価する。
CREW-Wildfireは、より現実的な複雑さ、スケーラブルなアーキテクチャ、行動評価メトリクスを提供することで、スケーラブルなマルチエージェントエージェントエージェントインテリジェンスの研究を進める上で重要な基盤を確立する。
コード、環境、データ、ベースラインはすべて、この新興領域における将来の研究をサポートするためにリリースされます。
関連論文リスト
- Benchmarking LLMs' Swarm intelligence [50.544186914115045]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。
ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。
また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T14:21:33Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。