論文の概要: MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge
- arxiv url: http://arxiv.org/abs/2206.08853v1
- Date: Fri, 17 Jun 2022 15:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:19:18.500901
- Title: MineDojo: Building Open-Ended Embodied Agents with Internet-Scale
Knowledge
- Title(参考訳): MineDojo: インターネット規模の知識によるオープンエンベッド型エージェントの構築
- Authors: Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang,
Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, Anima Anandkumar
- Abstract要約: 私たちは、人気のMinecraftゲーム上に構築された新しいフレームワークであるMineDojoを紹介します。
本稿では,学習報酬関数として,大規模な事前学習ビデオ言語モデルを活用する新しいエージェント学習アルゴリズムを提案する。
我々のエージェントは、手動で設計した密なシェーピング報酬なしで、自由形式の言語で指定された様々なオープンエンドタスクを解くことができる。
- 参考スコア(独自算出の注目度): 70.47759528596711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents have made great strides in specialist domains like Atari
games and Go. However, they typically learn tabula rasa in isolated
environments with limited and manually conceived objectives, thus failing to
generalize across a wide spectrum of tasks and capabilities. Inspired by how
humans continually learn and adapt in the open world, we advocate a trinity of
ingredients for building generalist agents: 1) an environment that supports a
multitude of tasks and goals, 2) a large-scale database of multimodal
knowledge, and 3) a flexible and scalable agent architecture. We introduce
MineDojo, a new framework built on the popular Minecraft game that features a
simulation suite with thousands of diverse open-ended tasks and an
internet-scale knowledge base with Minecraft videos, tutorials, wiki pages, and
forum discussions. Using MineDojo's data, we propose a novel agent learning
algorithm that leverages large pre-trained video-language models as a learned
reward function. Our agent is able to solve a variety of open-ended tasks
specified in free-form language without any manually designed dense shaping
reward. We open-source the simulation suite and knowledge bases
(https://minedojo.org) to promote research towards the goal of generally
capable embodied agents.
- Abstract(参考訳): 自律エージェントはatari gamesやgoといった専門分野において大きな進歩を遂げている。
しかし、それらは通常、限定的で手動で考案された目的を持つ孤立した環境でタブララザを学習し、それによって幅広いタスクや能力の一般化に失敗する。
人間がオープンな世界で継続的に学び、適応する方法に触発された私たちは、ジェネラリストエージェントを構築するための材料の三位一体を提唱します。
1)多数のタスクや目標をサポートする環境。
2)マルチモーダル知識の大規模データベース,および
3)柔軟でスケーラブルなエージェントアーキテクチャ。
minedojoは、人気の高いminecraftゲーム上に構築された新しいフレームワークで、何千もの多様なオープンエンドタスクを備えたシミュレーションスイートと、minecraftビデオ、チュートリアル、wikiページ、フォーラムディスカッションを備えたインターネット規模の知識ベースを備えています。
minedojoのデータを用いて,事前学習された大規模ビデオ言語モデルを学習報酬関数として利用するエージェント学習アルゴリズムを提案する。
当社のエージェントは,自由形式の言語で指定したさまざまなオープンエンドタスクを,手作業で設計した高密度なシェーピング報酬なしで解決することができる。
我々はシミュレーションスイートと知識ベース(https://minedojo.org)をオープンソース化し、一般的に有能なエンボディエージェントの目標に向けた研究を促進する。
関連論文リスト
- Towards General Computer Control: A Multimodal Agent for Red Dead
Redemption II as a Case Study [55.51812651443184]
本稿では,コンピュータの画面イメージ(および音声)のみを入力とし,キーボードとマウスの操作を出力として生成することで,コンピュータタスクをマスターできる基盤エージェントを提案する。
Cradleは6つの主要なモジュールを持つエージェントフレームワークである。例えば、マルチモーダル情報抽出のための情報収集、過去の経験を再考するための自己反映、最高の次のタスクを選択するためのタスク推論、関連するスキルの生成と更新のためのスキルキュレーション、キーボードとマウス制御のための特定の操作を生成するアクションプランニング、6)過去の経験と既知のスキルの記憶と検索のためのメモリである。
論文 参考訳(メタデータ) (2024-03-05T18:22:29Z) - An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Creative Agents: Empowering Agents with Imagination for Creative Tasks [31.920963353890393]
本稿では,言語命令に基づくタスク結果の詳細な想像力を生成するイマジネータを用いて,制御器を拡張したクリエイティブエージェントのためのソリューションのクラスを提案する。
私たちは創造的なタスクを、オープンワールドの挑戦的なゲームMinecraftでベンチマークします。
我々は、創造的エージェントの詳細な実験分析を行い、創造的エージェントがMinecraftの生存モードにおける多様な建築創造を達成する最初のAIエージェントであることを示した。
論文 参考訳(メタデータ) (2023-12-05T06:00:52Z) - Agent Lumos: Unified and Modular Training for Open-Source Language
Agents [93.16203525451985]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - LuckyMera: a Modular AI Framework for Building Hybrid NetHack Agents [7.23273667916516]
Rogueのようなビデオゲームは、環境の複雑さと計算コストの点で良いトレードオフを提供する。
我々は、NetHackを中心に構築された柔軟性、モジュール化、一般化、AIフレームワークであるLuckyMeraを紹介します。
LuckyMeraには、既製のシンボルモジュールとニューラルモジュール(“スキル”と呼ばれる)のセットが付属している。
論文 参考訳(メタデータ) (2023-07-17T14:46:59Z) - Ghost in the Minecraft: Generally Capable Agents for Open-World
Environments via Large Language Models with Text-based Knowledge and Memory [97.87093169454431]
Ghost in the Minecraft (GITM) は、LLM(Large Language Models)とテキストベースの知識と記憶を統合する新しいフレームワークである。
我々は、構造化されたアクションのセットを開発し、LSMを活用してエージェントが実行するアクションプランを生成する。
LLMをベースとしたエージェントは、従来の手法を著しく上回り、成功率+47.5%という顕著な改善を達成している。
論文 参考訳(メタデータ) (2023-05-25T17:59:49Z) - Skill Reinforcement Learning and Planning for Open-World Long-Horizon
Tasks [31.084848672383185]
オープンワールド環境におけるマルチタスクエージェントの構築について検討する。
我々は,マルチタスク学習問題を基礎的スキルの学習や,そのスキルの計画に転換する。
提案手法は40種類のMinecraftタスクをこなし,10以上のスキルを順次実行するタスクが多数存在する。
論文 参考訳(メタデータ) (2023-03-29T09:45:50Z) - Polycraft World AI Lab (PAL): An Extensible Platform for Evaluating
Artificial Intelligence Agents [0.0]
The Polycraft World AI Lab (PAL)は、Minecraft mod Polycraft WorldをベースとしたAPIを備えたタスクシミュレータである。
PALは、フレキシブルな方法でタスクを作成するだけでなく、評価中にタスクのあらゆる側面を操作することができる。
まとめると、AI研究者が利用する参入障壁が低く、多目的かつAI評価プラットフォームを報告します。
論文 参考訳(メタデータ) (2023-01-27T18:08:04Z) - Learning General World Models in a Handful of Reward-Free Deployments [53.06205037827802]
汎用エージェントの構築は、深層強化学習(RL)における大きな課題である
本稿では,新しい環境下での自己監督型探査手法であるCASCADEについて紹介する。
我々は,CASCADEが多様なタスク非依存のデータセットを収集し,ゼロショットから新規で目に見えない下流タスクへのエージェント学習を行うことを示す。
論文 参考訳(メタデータ) (2022-10-23T12:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。