論文の概要: MCU: A Task-centric Framework for Open-ended Agent Evaluation in
Minecraft
- arxiv url: http://arxiv.org/abs/2310.08367v1
- Date: Thu, 12 Oct 2023 14:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:11:47.115161
- Title: MCU: A Task-centric Framework for Open-ended Agent Evaluation in
Minecraft
- Title(参考訳): MCU:Minecraftにおけるオープンエンドエージェント評価のためのタスク中心フレームワーク
- Authors: Haowei Lin, Zihao Wang, Jianzhu Ma, Yitao Liang
- Abstract要約: 本稿では,Minecraftエージェント評価のためのタスク中心フレームワークであるMCUを紹介する。
MCUフレームワーク内では、各タスクは6つの異なる難易度スコアで測定される。
MCUはMinecraftエージェントの最近の文献で使われているタスクを全てカバーする表現力が高いことを示す。
- 参考スコア(独自算出の注目度): 28.585449904964033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To pursue the goal of creating an open-ended agent in Minecraft, an
open-ended game environment with unlimited possibilities, this paper introduces
a task-centric framework named MCU for Minecraft agent evaluation. The MCU
framework leverages the concept of atom tasks as fundamental building blocks,
enabling the generation of diverse or even arbitrary tasks. Within the MCU
framework, each task is measured with six distinct difficulty scores (time
consumption, operational effort, planning complexity, intricacy, creativity,
novelty). These scores offer a multi-dimensional assessment of a task from
different angles, and thus can reveal an agent's capability on specific facets.
The difficulty scores also serve as the feature of each task, which creates a
meaningful task space and unveils the relationship between tasks. For efficient
evaluation of Minecraft agents employing the MCU framework, we maintain a
unified benchmark, namely SkillForge, which comprises representative tasks with
diverse categories and difficulty distribution. We also provide convenient
filters for users to select tasks to assess specific capabilities of agents. We
show that MCU has the high expressivity to cover all tasks used in recent
literature on Minecraft agent, and underscores the need for advancements in
areas such as creativity, precise control, and out-of-distribution
generalization under the goal of open-ended Minecraft agent development.
- Abstract(参考訳): そこで本研究では,Minecraft エージェント評価のための MCU というタスク中心のフレームワークを提案する。
MCUフレームワークは、アトミックタスクの概念を基本的なビルディングブロックとして活用し、多様なタスクや任意のタスクを生成できる。
mcuフレームワークでは、各タスクは6つの異なる難易度スコア(時間消費、運用努力、計画の複雑さ、複雑度、創造性、ノベルティ)で測定される。
これらのスコアは異なる角度からタスクの多次元評価を提供し、そのため特定の顔にエージェントの能力を明らかにすることができる。
難易度スコアは各タスクの特徴としても機能し、有意義なタスク空間を生成し、タスク間の関係を明らかにする。
MCUフレームワークを用いたMinecraftエージェントの効率的な評価のために,多種多様なカテゴリと難易度分布からなる代表的タスクからなるSkillForgeというベンチマークを統一的に維持する。
また,エージェントの特定の機能を評価するタスクを選択するための便利なフィルタも提供する。
我々は,mcuがマインクラフトエージェントに関する最近の文献で使用されているすべてのタスクをカバーする高い表現力を持つことを示し,オープンエンドのマインクラフトエージェント開発を目標とし,創造性,精密制御,分散一般化といった分野における進歩の必要性を強調する。
関連論文リスト
- HarmonicEval: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation Using a Vision Language Model [42.62148712511799]
視覚言語モデル(VLM)は、テキストや画像理解において印象的な能力を示している。
VLMが生成したテキストを評価するための既存のメトリクスは、全体的な品質にのみフォーカスする。
本研究では,評価基準のない評価指標であるHarmonicEvalを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:03:16Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Feature-Attending Recurrent Modules for Generalization in Reinforcement
Learning [27.736730414205137]
FARM(Feature-Recurrent Modules)は、空間的および時間的規則性に対して、単純で広く適用可能な帰納的バイアスに依存する状態表現を学習するためのアーキテクチャである。
FARMは、複数のモジュールに分散したステート表現を学び、それぞれが表現力のある機能アテンションメカニズムでフィーチャーをキャプチャする。
これにより、RLエージェントがオブジェクト中心のタスクをまたいで一般化できることが示される。
論文 参考訳(メタデータ) (2021-12-15T12:48:12Z) - Procedural Generalization by Planning with Self-Supervised World Models [10.119257232716834]
モデルベースエージェントの一般化能力をモデルフリーエージェントと比較した。
手続き的一般化の要因は,計画,自己指導型表現学習,手続き的データの多様性の3つである。
これらの要因が必ずしもタスクの一般化に同じ利益をもたらすとは限らないことが分かっています。
論文 参考訳(メタデータ) (2021-11-02T13:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。