論文の概要: MCU: An Evaluation Framework for Open-Ended Game Agents
- arxiv url: http://arxiv.org/abs/2310.08367v3
- Date: Sat, 22 Feb 2025 13:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:20.705058
- Title: MCU: An Evaluation Framework for Open-Ended Game Agents
- Title(参考訳): MCU:オープンエンディングゲームエージェントの評価フレームワーク
- Authors: Xinyue Zheng, Haowei Lin, Kaichen He, Zihao Wang, Zilong Zheng, Yitao Liang,
- Abstract要約: Minecraft Universe (MCU) は、オープンソースのビデオゲームMinecraftの総合的な評価フレームワークである。
MCUは,(1)11つの主要なカテゴリを含む3,452個の構成可能な原子タスクと41の課題のサブカテゴリからなる拡張されたコレクション,(2)難易度に応じて無限に多様なタスクを生成可能なタスク構成機構,(3)オープンエンドタスクアセスメントのためのヒトのレーティングと91.5%のアライメントを達成する一般的な評価フレームワークである。
- 参考スコア(独自算出の注目度): 28.40941393862889
- License:
- Abstract: Developing AI agents capable of interacting with open-world environments to solve diverse tasks is a compelling challenge. However, evaluating such open-ended agents remains difficult, with current benchmarks facing scalability limitations. To address this, we introduce Minecraft Universe (MCU), a comprehensive evaluation framework set within the open-world video game Minecraft. MCU incorporates three key components: (1) an expanding collection of 3,452 composable atomic tasks that encompasses 11 major categories and 41 subcategories of challenges; (2) a task composition mechanism capable of generating infinite diverse tasks with varying difficulty; and (3) a general evaluation framework that achieves 91.5% alignment with human ratings for open-ended task assessment. Empirical results reveal that even state-of-the-art foundation agents struggle with the increasing diversity and complexity of tasks. These findings highlight the necessity of MCU as a robust benchmark to drive progress in AI agent development within open-ended environments.
- Abstract(参考訳): 多様なタスクを解決するために、オープンワールド環境と対話できるAIエージェントを開発することは、魅力的な課題だ。
しかし、そのようなオープンエンドエージェントの評価は依然として困難であり、現在のベンチマークではスケーラビリティの制限に直面している。
これを解決するために,オープンワールドゲームMinecraftの総合評価フレームワークであるMinecraft Universe (MCU)を紹介した。
MCUは,(1)11つの主要なカテゴリを含む3,452個の構成可能な原子タスクと41の課題のサブカテゴリからなる拡張されたコレクション,(2)難易度に応じて無限に多様なタスクを生成可能なタスク構成機構,(3)オープンエンドタスクアセスメントのためのヒトのレーティングと91.5%のアライメントを達成する一般的な評価フレームワークである。
実証的な結果は、最先端のファウンデーションエージェントでさえ、タスクの多様性と複雑さの増大に苦慮していることを示している。
これらの知見は、オープンエンド環境でAIエージェント開発を進めるための堅牢なベンチマークとしてのMCUの必要性を浮き彫りにしている。
関連論文リスト
- HarmonicEval: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation Using a Vision Language Model [42.62148712511799]
視覚言語モデル(VLM)は、テキストや画像理解において印象的な能力を示している。
VLMが生成したテキストを評価するための既存のメトリクスは、全体的な品質にのみフォーカスする。
本研究では,評価基準のない評価指標であるHarmonicEvalを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:03:16Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Feature-Attending Recurrent Modules for Generalization in Reinforcement
Learning [27.736730414205137]
FARM(Feature-Recurrent Modules)は、空間的および時間的規則性に対して、単純で広く適用可能な帰納的バイアスに依存する状態表現を学習するためのアーキテクチャである。
FARMは、複数のモジュールに分散したステート表現を学び、それぞれが表現力のある機能アテンションメカニズムでフィーチャーをキャプチャする。
これにより、RLエージェントがオブジェクト中心のタスクをまたいで一般化できることが示される。
論文 参考訳(メタデータ) (2021-12-15T12:48:12Z) - Procedural Generalization by Planning with Self-Supervised World Models [10.119257232716834]
モデルベースエージェントの一般化能力をモデルフリーエージェントと比較した。
手続き的一般化の要因は,計画,自己指導型表現学習,手続き的データの多様性の3つである。
これらの要因が必ずしもタスクの一般化に同じ利益をもたらすとは限らないことが分かっています。
論文 参考訳(メタデータ) (2021-11-02T13:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。