論文の概要: Towards Evaluating Generalist Agents: An Automated Benchmark in Open World
- arxiv url: http://arxiv.org/abs/2310.08367v2
- Date: Fri, 29 Nov 2024 10:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:18:05.810288
- Title: Towards Evaluating Generalist Agents: An Automated Benchmark in Open World
- Title(参考訳): ジェネリストエージェントの評価に向けて - オープンワールドにおける自動ベンチマーク
- Authors: Xinyue Zheng, Haowei Lin, Kaichen He, Zihao Wang, Zilong Zheng, Yitao Liang,
- Abstract要約: Minecraft Universe (MCU) は,オープンワールドゲームMinecraft内の完全に自動化されたベンチマークフレームワークである。
MCUは、様々なタスクを動的に生成し、評価し、3つのコアコンポーネントを提供する。
現状のモデルは特定のタスクでうまく機能するが、タスクの多様性と難易度の増加に悩まされることが多い。
- 参考スコア(独自算出の注目度): 28.40941393862889
- License:
- Abstract: Evaluating generalist agents presents significant challenges due to their wide-ranging abilities and the limitations of current benchmarks in assessing true generalization. We introduce the Minecraft Universe (MCU), a fully automated benchmarking framework set within the open-world game Minecraft. MCU dynamically generates and evaluates a broad spectrum of tasks, offering three core components: 1) a task generation mechanism that provides high degrees of freedom and variability, 2) an ever-expanding set of over 3K composable atomic tasks, and 3) a general evaluation framework that supports open-ended task assessment. By integrating large language models (LLMs), MCU dynamically creates diverse environments for each evaluation, fostering agent generalization. The framework uses a vision-language model (VLM) to automatically generate evaluation criteria, achieving over 90% agreement with human ratings across multi-dimensional assessments, which demonstrates that MCU is a scalable and explainable solution for evaluating generalist agents. Additionally, we show that while state-of-the-art foundational models perform well on specific tasks, they often struggle with increased task diversity and difficulty.
- Abstract(参考訳): ジェネラリストエージェントの評価は、その広範な能力と、真の一般化を評価する際の現在のベンチマークの限界により、重大な課題を示す。
Minecraft Universe (MCU) は,オープンワールドゲームMinecraft内の完全に自動化されたベンチマークフレームワークである。
MCUは、様々なタスクを動的に生成し、評価し、3つのコアコンポーネントを提供する。
1)高い自由度及び可変度を提供するタスク生成機構
2) 3K以上の構成可能な原子タスクを継続して拡張し、
3)オープンエンドタスクアセスメントをサポートする総合評価フレームワーク。
大規模言語モデル(LLM)を統合することで、MCUは各評価のための多様な環境を動的に生成し、エージェントの一般化を促進する。
このフレームワークは視覚言語モデル(VLM)を用いて評価基準を自動生成し、多次元評価における人間の評価との90%以上を達成し、MCUが汎用エージェントを評価するためのスケーラブルで説明可能なソリューションであることを実証している。
さらに、現状の基盤モデルは特定のタスクでうまく機能するが、タスクの多様性と難易度の増加に苦慮することが多いことを示す。
関連論文リスト
- HarmonicEval: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation Using a Vision Language Model [42.62148712511799]
視覚言語モデル(VLM)は、テキストや画像理解において印象的な能力を示している。
VLMが生成したテキストを評価するための既存のメトリクスは、全体的な品質にのみフォーカスする。
本研究では,評価基準のない評価指標であるHarmonicEvalを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:03:16Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Feature-Attending Recurrent Modules for Generalization in Reinforcement
Learning [27.736730414205137]
FARM(Feature-Recurrent Modules)は、空間的および時間的規則性に対して、単純で広く適用可能な帰納的バイアスに依存する状態表現を学習するためのアーキテクチャである。
FARMは、複数のモジュールに分散したステート表現を学び、それぞれが表現力のある機能アテンションメカニズムでフィーチャーをキャプチャする。
これにより、RLエージェントがオブジェクト中心のタスクをまたいで一般化できることが示される。
論文 参考訳(メタデータ) (2021-12-15T12:48:12Z) - Procedural Generalization by Planning with Self-Supervised World Models [10.119257232716834]
モデルベースエージェントの一般化能力をモデルフリーエージェントと比較した。
手続き的一般化の要因は,計画,自己指導型表現学習,手続き的データの多様性の3つである。
これらの要因が必ずしもタスクの一般化に同じ利益をもたらすとは限らないことが分かっています。
論文 参考訳(メタデータ) (2021-11-02T13:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。