Fugu-MT 論文翻訳(概要): Towards Evaluating Generalist Agents: An Automated Benchmark in Open World

論文の概要: Towards Evaluating Generalist Agents: An Automated Benchmark in Open World

arxiv url: http://arxiv.org/abs/2310.08367v2
Date: Fri, 29 Nov 2024 10:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:06.945103
Title: Towards Evaluating Generalist Agents: An Automated Benchmark in Open World
Title（参考訳）: ジェネリストエージェントの評価に向けて - オープンワールドにおける自動ベンチマーク
Authors: Xinyue Zheng, Haowei Lin, Kaichen He, Zihao Wang, Zilong Zheng, Yitao Liang,
Abstract要約: Minecraft Universe (MCU) は,オープンワールドゲームMinecraft内の完全に自動化されたベンチマークフレームワークである。 MCUは、様々なタスクを動的に生成し、評価し、3つのコアコンポーネントを提供する。現状のモデルは特定のタスクでうまく機能するが、タスクの多様性と難易度の増加に悩まされることが多い。
参考スコア（独自算出の注目度）: 28.40941393862889
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating generalist agents presents significant challenges due to their wide-ranging abilities and the limitations of current benchmarks in assessing true generalization. We introduce the Minecraft Universe (MCU), a fully automated benchmarking framework set within the open-world game Minecraft. MCU dynamically generates and evaluates a broad spectrum of tasks, offering three core components: 1) a task generation mechanism that provides high degrees of freedom and variability, 2) an ever-expanding set of over 3K composable atomic tasks, and 3) a general evaluation framework that supports open-ended task assessment. By integrating large language models (LLMs), MCU dynamically creates diverse environments for each evaluation, fostering agent generalization. The framework uses a vision-language model (VLM) to automatically generate evaluation criteria, achieving over 90% agreement with human ratings across multi-dimensional assessments, which demonstrates that MCU is a scalable and explainable solution for evaluating generalist agents. Additionally, we show that while state-of-the-art foundational models perform well on specific tasks, they often struggle with increased task diversity and difficulty.
Abstract（参考訳）: ジェネラリストエージェントの評価は、その広範な能力と、真の一般化を評価する際の現在のベンチマークの限界により、重大な課題を示す。 Minecraft Universe (MCU) は,オープンワールドゲームMinecraft内の完全に自動化されたベンチマークフレームワークである。 MCUは、様々なタスクを動的に生成し、評価し、3つのコアコンポーネントを提供する。 1)高い自由度及び可変度を提供するタスク生成機構 2) 3K以上の構成可能な原子タスクを継続して拡張し、 3)オープンエンドタスクアセスメントをサポートする総合評価フレームワーク。大規模言語モデル(LLM)を統合することで、MCUは各評価のための多様な環境を動的に生成し、エージェントの一般化を促進する。このフレームワークは視覚言語モデル(VLM)を用いて評価基準を自動生成し、多次元評価における人間の評価との90%以上を達成し、MCUが汎用エージェントを評価するためのスケーラブルで説明可能なソリューションであることを実証している。さらに、現状の基盤モデルは特定のタスクでうまく機能するが、タスクの多様性と難易度の増加に苦慮することが多いことを示す。

関連論文リスト

SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam? [51.112225746095746]
本稿では,人間研究者をエミュレートするツール強化推論エージェントであるX-Masterを紹介する。 XマスターズはHumanity's Last Examに32.1%のスコアで最新記録を樹立した。
論文参考訳（メタデータ） (2025-07-07T17:50:52Z)
CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale [4.464959191643012]
我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。 CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
論文参考訳（メタデータ） (2025-07-07T16:33:42Z)
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts [54.21319853862452]
Minecraftの汎用エージェントOptimus-3を提案する。エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するための知識強化型データ生成パイプラインを提案する。視覚的多様性に対するエージェントの推論能力を高めるために,マルチモーダル推論強化学習手法を開発した。
論文参考訳（メタデータ） (2025-06-12T05:29:40Z)
From Glue-Code to Protocols: A Critical Analysis of A2A and MCP Integration for Scalable Agent Systems [0.8909482883800253]
エージェント間通信のためのGoogleのエージェント・トゥ・エージェント(A2A)プロトコルと標準化されたツールアクセスのためのAnthropicのモデルコンテキストプロトコル(MCP)の2つのオープンスタンダードは、断片化されたカスタム統合アプローチの制限を克服することを約束している。本稿では, A2A と MCP を効果的に統合することは, 交差点に固有の, 創発的な課題をもたらすことを主張する。
論文参考訳（メタデータ） (2025-05-06T16:40:39Z)
A Comprehensive Survey of Agents for Computer Use: Foundations, Challenges, and Future Directions [4.904229981437243]
コンピュータ利用エージェント(英: Agents for Computer Use, ACU)は、デジタルデバイス上で複雑なタスクを実行できるシステムである。急速な進歩にもかかわらず、ACUはまだ日々の使用には成熟していない。
論文参考訳（メタデータ） (2025-01-27T15:44:02Z)
Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文参考訳（メタデータ） (2024-12-20T09:21:15Z)
Complexity Experts are Task-Discriminative Learners for Any Image Restoration [80.46313715427928]
複雑性の専門家" - 様々な計算複雑性と受容的なフィールドを持つフレキシブルな専門家ブロックを紹介します。この選好は、タスク固有の割り当てを効果的に推進し、適切な複雑さを持つ専門家にタスクを割り当てる。提案したMoCE-IRモデルは最先端の手法より優れており、その効率性と実用性が確認されている。
論文参考訳（メタデータ） (2024-11-27T15:58:07Z)
Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。 Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文参考訳（メタデータ） (2024-07-22T02:06:59Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。 8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文参考訳（メタデータ） (2024-06-10T20:08:44Z)
Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification [34.97881486372797]
オープンエージェントの構築は常にAI研究の最終的な目標であり、クリエイティブエージェントはより魅力的です。エージェントがギャップを埋める自律的な実施検証手法を導入し、創造的なタスクの基盤を築き上げます。具体的には,2段階の自律的実施検証を取り入れた,Minecraftにおける創造的建築タスクを目標とするLubanエージェントを提案する。
論文参考訳（メタデータ） (2024-05-24T10:25:59Z)
Creative Agents: Empowering Agents with Imagination for Creative Tasks [31.920963353890393]
本稿では,言語命令に基づくタスク結果の詳細な想像力を生成するイマジネータを用いて,制御器を拡張したクリエイティブエージェントのためのソリューションのクラスを提案する。私たちは創造的なタスクを、オープンワールドの挑戦的なゲームMinecraftでベンチマークします。我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。
論文参考訳（メタデータ） (2023-12-05T06:00:52Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。 LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文参考訳（メタデータ） (2023-05-25T17:59:49Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)
MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge [70.47759528596711]
私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
論文参考訳（メタデータ） (2022-06-17T15:53:05Z)
Learning to Execute Actions or Ask Clarification Questions [9.784428580459776]
命令をいつ要求するか、実行すべきかを判断できる新しいビルダーエージェントモデルを提案する。実験結果から,本モデルが協調作業における最先端性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-04-18T15:36:02Z)
Benchmarking the Spectrum of Agent Capabilities [7.088856621650764]
本稿では,1つの環境における幅広い汎用能力を評価する視覚入力を備えたオープンワールドサバイバルゲームであるCrafterを紹介する。エージェントは提供された報酬信号や本質的な目的を通じて学習し、意味的に意味のある成果によって評価される。我々は、Crafterが将来の研究を推進するのに適切な困難であることを実験的に検証し、報酬エージェントと教師なしエージェントのベースラインスコアを提供する。
論文参考訳（メタデータ） (2021-09-14T15:49:31Z)
Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文参考訳（メタデータ） (2021-07-27T13:30:07Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文参考訳（メタデータ） (2020-07-31T00:13:54Z)
Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文参考訳（メタデータ） (2020-07-01T09:38:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。