論文の概要: MCU: A Task-centric Framework for Open-ended Agent Evaluation in
Minecraft
- arxiv url: http://arxiv.org/abs/2310.08367v1
- Date: Thu, 12 Oct 2023 14:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:11:47.115161
- Title: MCU: A Task-centric Framework for Open-ended Agent Evaluation in
Minecraft
- Title(参考訳): MCU:Minecraftにおけるオープンエンドエージェント評価のためのタスク中心フレームワーク
- Authors: Haowei Lin, Zihao Wang, Jianzhu Ma, Yitao Liang
- Abstract要約: 本稿では,Minecraftエージェント評価のためのタスク中心フレームワークであるMCUを紹介する。
MCUフレームワーク内では、各タスクは6つの異なる難易度スコアで測定される。
MCUはMinecraftエージェントの最近の文献で使われているタスクを全てカバーする表現力が高いことを示す。
- 参考スコア(独自算出の注目度): 28.585449904964033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To pursue the goal of creating an open-ended agent in Minecraft, an
open-ended game environment with unlimited possibilities, this paper introduces
a task-centric framework named MCU for Minecraft agent evaluation. The MCU
framework leverages the concept of atom tasks as fundamental building blocks,
enabling the generation of diverse or even arbitrary tasks. Within the MCU
framework, each task is measured with six distinct difficulty scores (time
consumption, operational effort, planning complexity, intricacy, creativity,
novelty). These scores offer a multi-dimensional assessment of a task from
different angles, and thus can reveal an agent's capability on specific facets.
The difficulty scores also serve as the feature of each task, which creates a
meaningful task space and unveils the relationship between tasks. For efficient
evaluation of Minecraft agents employing the MCU framework, we maintain a
unified benchmark, namely SkillForge, which comprises representative tasks with
diverse categories and difficulty distribution. We also provide convenient
filters for users to select tasks to assess specific capabilities of agents. We
show that MCU has the high expressivity to cover all tasks used in recent
literature on Minecraft agent, and underscores the need for advancements in
areas such as creativity, precise control, and out-of-distribution
generalization under the goal of open-ended Minecraft agent development.
- Abstract(参考訳): そこで本研究では,Minecraft エージェント評価のための MCU というタスク中心のフレームワークを提案する。
MCUフレームワークは、アトミックタスクの概念を基本的なビルディングブロックとして活用し、多様なタスクや任意のタスクを生成できる。
mcuフレームワークでは、各タスクは6つの異なる難易度スコア(時間消費、運用努力、計画の複雑さ、複雑度、創造性、ノベルティ)で測定される。
これらのスコアは異なる角度からタスクの多次元評価を提供し、そのため特定の顔にエージェントの能力を明らかにすることができる。
難易度スコアは各タスクの特徴としても機能し、有意義なタスク空間を生成し、タスク間の関係を明らかにする。
MCUフレームワークを用いたMinecraftエージェントの効率的な評価のために,多種多様なカテゴリと難易度分布からなる代表的タスクからなるSkillForgeというベンチマークを統一的に維持する。
また,エージェントの特定の機能を評価するタスクを選択するための便利なフィルタも提供する。
我々は,mcuがマインクラフトエージェントに関する最近の文献で使用されているすべてのタスクをカバーする高い表現力を持つことを示し,オープンエンドのマインクラフトエージェント開発を目標とし,創造性,精密制御,分散一般化といった分野における進歩の必要性を強調する。
関連論文リスト
- Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification [34.97881486372797]
オープンエージェントの構築は常にAI研究の最終的な目標であり、クリエイティブエージェントはより魅力的です。
エージェントがギャップを埋める自律的な実施検証手法を導入し、創造的なタスクの基盤を築き上げます。
具体的には,2段階の自律的実施検証を取り入れた,Minecraftにおける創造的建築タスクを目標とするLubanエージェントを提案する。
論文 参考訳(メタデータ) (2024-05-24T10:25:59Z) - Creative Agents: Empowering Agents with Imagination for Creative Tasks [31.920963353890393]
本稿では,言語命令に基づくタスク結果の詳細な想像力を生成するイマジネータを用いて,制御器を拡張したクリエイティブエージェントのためのソリューションのクラスを提案する。
私たちは創造的なタスクを、オープンワールドの挑戦的なゲームMinecraftでベンチマークします。
我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。
論文 参考訳(メタデータ) (2023-12-05T06:00:52Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-17T15:53:05Z) - Learning to Execute Actions or Ask Clarification Questions [9.784428580459776]
命令をいつ要求するか、実行すべきかを判断できる新しいビルダーエージェントモデルを提案する。
実験結果から,本モデルが協調作業における最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-18T15:36:02Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task
Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。
我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。
この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文 参考訳(メタデータ) (2020-07-31T00:13:54Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。