論文の概要: Plan4MC: Skill Reinforcement Learning and Planning for Open-World
Minecraft Tasks
- arxiv url: http://arxiv.org/abs/2303.16563v1
- Date: Wed, 29 Mar 2023 09:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:17:42.564209
- Title: Plan4MC: Skill Reinforcement Learning and Planning for Open-World
Minecraft Tasks
- Title(参考訳): plan4mc: スキル強化学習とオープンワールドマインクラフトタスクの計画
- Authors: Haoqi Yuan, Chi Zhang, Hongcheng Wang, Feiyang Xie, Penglin Cai, Hao
Dong, Zongqing Lu
- Abstract要約: Minecraftにおけるマルチタスクエージェントの構築について検討する。
タスクを分割して基本的なスキルを学習し、スキルを計画する。
本稿では,Minecraftにおける3種類の基礎スキルを提案し,本質的な報酬でRLを用いて,高い成功率で基礎スキルを達成している。
- 参考スコア(独自算出の注目度): 19.814764036374925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study building a multi-task agent in Minecraft. Without human
demonstrations, solving long-horizon tasks in this open-ended environment with
reinforcement learning (RL) is extremely sample inefficient. To tackle the
challenge, we decompose solving Minecraft tasks into learning basic skills and
planning over the skills. We propose three types of fine-grained basic skills
in Minecraft, and use RL with intrinsic rewards to accomplish basic skills with
high success rates. For skill planning, we use Large Language Models to find
the relationships between skills and build a skill graph in advance. When the
agent is solving a task, our skill search algorithm walks on the skill graph
and generates the proper skill plans for the agent. In experiments, our method
accomplishes 24 diverse Minecraft tasks, where many tasks require sequentially
executing for more than 10 skills. Our method outperforms baselines in most
tasks by a large margin. The project's website and code can be found at
https://sites.google.com/view/plan4mc.
- Abstract(参考訳): 我々はminecraftでマルチタスクエージェントを構築することを学ぶ。
人間の実演がなければ、強化学習(RL)を用いたこのオープンエンド環境での長期的タスクの解決は極めて非効率である。
この課題に取り組むために、Minecraftのタスクを分解して基本的なスキルを学び、スキルを計画する。
本稿では,Minecraftにおける3種類の基礎スキルを提案し,本質的な報酬でRLを用いて,高い成功率で基礎スキルを実現する。
スキルプランニングには、大きな言語モデルを使用してスキル間の関係を見つけ、事前にスキルグラフを構築する。
エージェントがタスクを解くとき、スキル検索アルゴリズムはスキルグラフの上を歩き、エージェントの適切なスキルプランを生成する。
実験では、多数のタスクが10以上のスキルで順次実行する必要がある24の多様なminecraftタスクを実現する。
提案手法は,ほとんどのタスクにおけるベースラインを大きなマージンで上回っている。
プロジェクトのWebサイトとコードはhttps://sites.google.com/view/plan4mc.comにある。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Multi-task curriculum learning in a complex, visual, hard-exploration
domain: Minecraft [18.845438529816004]
私たちは、複雑な視覚的な領域でカリキュラムの学習を探索し、多くの難しい探索課題を経験します。
学習の進歩は,効果的なカリキュラムを自動構築する上で,学習可能性の信頼性の高い尺度であることが判明した。
論文 参考訳(メタデータ) (2021-06-28T17:50:40Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Accelerating Reinforcement Learning with Learned Skill Priors [20.268358783821487]
現代の強化学習アプローチは、すべてのタスクをゼロから学習する。
事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。
学習したスキル事前は、リッチデータセットからの効果的なスキル伝達に不可欠であることを示す。
論文 参考訳(メタデータ) (2020-10-22T17:59:51Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。