論文の概要: TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft
- arxiv url: http://arxiv.org/abs/2412.05255v1
- Date: Fri, 06 Dec 2024 18:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:58:04.384321
- Title: TeamCraft: A Benchmark for Multi-Modal Multi-Agent Systems in Minecraft
- Title(参考訳): TeamCraft:Minecraftのマルチモーダルマルチエージェントシステムのベンチマーク
- Authors: Qian Long, Zhi Li, Ran Gong, Ying Nian Wu, Demetri Terzopoulos, Xiaofeng Gao,
- Abstract要約: オープンソースのビデオゲームMinecraft上に構築されたマルチモーダルなマルチエージェントベンチマークであるTeamCraftを紹介します。
このベンチマークでは、マルチモーダルプロンプトによって指定された55,000のタスク変種、模倣学習のための手続き的に生成された専門家のデモンストレーション、モデル一般化機能を評価するための慎重に設計されたプロトコルが特徴である。
以上の結果から,既存のモデルでは,新たな目標,シーン,不明なエージェントの数を一般化する上で,大きな課題が続いていることが示唆された。
- 参考スコア(独自算出の注目度): 40.419794780178044
- License:
- Abstract: Collaboration is a cornerstone of society. In the real world, human teammates make use of multi-sensory data to tackle challenging tasks in ever-changing environments. It is essential for embodied agents collaborating in visually-rich environments replete with dynamic interactions to understand multi-modal observations and task specifications. To evaluate the performance of generalizable multi-modal collaborative agents, we present TeamCraft, a multi-modal multi-agent benchmark built on top of the open-world video game Minecraft. The benchmark features 55,000 task variants specified by multi-modal prompts, procedurally-generated expert demonstrations for imitation learning, and carefully designed protocols to evaluate model generalization capabilities. We also perform extensive analyses to better understand the limitations and strengths of existing approaches. Our results indicate that existing models continue to face significant challenges in generalizing to novel goals, scenes, and unseen numbers of agents. These findings underscore the need for further research in this area. The TeamCraft platform and dataset are publicly available at https://github.com/teamcraft-bench/teamcraft.
- Abstract(参考訳): 協力は社会の基盤である。
現実の世界では、人間のチームメイトは、常に変化する環境における課題に取り組むために、マルチ感覚データを使用します。
マルチモーダルな観察やタスク仕様を理解するために、視覚的に豊かな環境において協調して働くエージェントには、動的相互作用を補うことが不可欠である。
一般化可能なマルチモーダル協調エージェントの性能を評価するため,オープンワールドゲームMinecraft上に構築されたマルチモーダルマルチエージェントベンチマークであるTeamCraftを提案する。
このベンチマークでは、マルチモーダルプロンプトによって指定された55,000のタスク変種、模倣学習のための手続き的に生成された専門家のデモンストレーション、モデル一般化機能を評価するための慎重に設計されたプロトコルが特徴である。
既存のアプローチの限界や強みをよりよく理解するために、広範な分析も行います。
以上の結果から,既存のモデルでは,新たな目標,シーン,不明なエージェントの数を一般化する上で,大きな課題が続いていることが示唆された。
これらの発見は、この地域でさらなる研究の必要性を浮き彫りにした。
TeamCraftプラットフォームとデータセットはhttps://github.com/teamcraft-bench/teamcraft.comで公開されている。
関連論文リスト
- Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - MindAgent: Emergent Gaming Interaction [103.73707345211892]
大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持つ。
我々はMindAgentを提案し,ゲームインタラクションにおける創発的能力の評価・調整を行う。
論文 参考訳(メタデータ) (2023-09-18T17:52:22Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - CH-MARL: A Multimodal Benchmark for Cooperative, Heterogeneous
Multi-Agent Reinforcement Learning [15.686200550604815]
マルチルームホーム環境において,複数の模擬異種ロボット間の協調作業を含むタスクを含むベンチマークデータセットを提案する。
我々は、統合学習フレームワーク、最先端マルチエージェント強化学習技術のマルチモーダル実装、一貫した評価プロトコルを提供する。
論文 参考訳(メタデータ) (2022-08-26T02:21:31Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。