論文の概要: MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge
- arxiv url: http://arxiv.org/abs/2206.08853v1
- Date: Fri, 17 Jun 2022 15:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:19:18.500901
- Title: MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge
- Title(参考訳): MineDojo: インターネット規模の知識によるオープンエンベッド型エージェントの構築
- Authors: Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang,
Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar
- Abstract要約: 私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
- 参考スコア(独自算出の注目度): 70.47759528596711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents have made great strides in specialist domains like Atari
games and Go. However, they typically learn tabula rasa in isolated
environments with limited and manually conceived objectives, thus failing to
generalize across a wide spectrum of tasks and capabilities. Inspired by how
humans continually learn and adapt in the open world, we advocate a trinity of
ingredients for building generalist agents: 1) an environment that supports a
multitude of tasks and goals, 2) a large-scale database of multimodal
knowledge, and 3) a flexible and scalable agent architecture. We introduce
MineDojo, a new framework built on the popular Minecraft game that features a
simulation suite with thousands of diverse open-ended tasks and an
internet-scale knowledge base with Minecraft videos, tutorials, wiki pages, and
forum discussions. Using MineDojo's data, we propose a novel agent learning
algorithm that leverages large pre-trained video-language models as a learned
reward function. Our agent is able to solve a variety of open-ended tasks
specified in free-form language without any manually designed dense shaping
reward. We open-source the simulation suite and knowledge bases
(https://minedojo.org) to promote research towards the goal of generally
capable embodied agents.
- Abstract(参考訳): 自律エージェントはatari gamesやgoといった専門分野において大きな進歩を遂げている。
しかし、それらは通常、限定的で手動で考案された目的を持つ孤立した環境でタブララザを学習し、それによって幅広いタスクや能力の一般化に失敗する。
人間がオープンな世界で継続的に学び、適応する方法に触発された私たちは、ジェネラリストエージェントを構築するための材料の三位一体を提唱します。
1)多数のタスクや目標をサポートする環境。
2)マルチモーダル知識の大規模データベース,および
3)柔軟でスケーラブルなエージェントアーキテクチャ。
minedojoは、人気の高いminecraftゲーム上に構築された新しいフレームワークで、何千もの多様なオープンエンドタスクを備えたシミュレーションスイートと、minecraftビデオ、チュートリアル、wikiページ、フォーラムディスカッションを備えたインターネット規模の知識ベースを備えています。
minedojoのデータを用いて,事前学習された大規模ビデオ言語モデルを学習報酬関数として利用するエージェント学習アルゴリズムを提案する。
当社のエージェントは,自由形式の言語で指定したさまざまなオープンエンドタスクを,手作業で設計した高密度なシェーピング報酬なしで解決することができる。
我々はシミュレーションスイートと知識ベース(https://minedojo.org)をオープンソース化し、一般的に有能なエンボディエージェントの目標に向けた研究を促進する。
関連論文リスト
- OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Odyssey: Empowering Minecraft Agents with Open-World Skills [26.537984734738764]
Odysseyは、LLM(Large Language Model)ベースのエージェントにオープンワールドスキルを付与し、Minecraftの世界を探索する新しいフレームワークである。
Odysseyは,(1)40のプリミティブスキルと183の作曲スキルからなるオープンワールドスキルライブラリを備えた対話型エージェント,(2)Minecraft Wikiから派生した390k以上のインストラクションインストラクションを持つ大規模質問応答データセット上で訓練された微調整LLaMA-3モデル,(3)新しいエージェント能力ベンチマークの3つの重要な部分から構成される。
論文 参考訳(メタデータ) (2024-07-22T02:06:59Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Creative Agents: Empowering Agents with Imagination for Creative Tasks [31.920963353890393]
本稿では,言語命令に基づくタスク結果の詳細な想像力を生成するイマジネータを用いて,制御器を拡張したクリエイティブエージェントのためのソリューションのクラスを提案する。
私たちは創造的なタスクを、オープンワールドの挑戦的なゲームMinecraftでベンチマークします。
我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。
論文 参考訳(メタデータ) (2023-12-05T06:00:52Z) - Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Mastering Diverse Domains through World Models [43.382115013586535]
本稿では,150以上のタスクにまたがる特殊メソッドを1つの構成で高速化するDreamerV3を提案する。
Dreamerは、Minecraftのダイヤモンドを人間のデータやカリキュラムなしでゼロから収集する最初のアルゴリズムだ。
論文 参考訳(メタデータ) (2023-01-10T18:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。