Fugu-MT 論文翻訳(概要): Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

論文の概要: Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

arxiv url: http://arxiv.org/abs/2303.16563v1
Date: Wed, 29 Mar 2023 09:45:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 15:17:42.564209
Title: Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
Title（参考訳）: plan4mc: スキル強化学習とオープンワールドマインクラフトタスクの計画
Authors: Haoqi Yuan, Chi Zhang, Hongcheng Wang, Feiyang Xie, Penglin Cai, Hao Dong, Zongqing Lu
Abstract要約: Minecraftにおけるマルチタスクエージェントの構築について検討する。タスクを分割して基本的なスキルを学習し、スキルを計画する。本稿では,Minecraftにおける3種類の基礎スキルを提案し,本質的な報酬でRLを用いて,高い成功率で基礎スキルを達成している。
参考スコア（独自算出の注目度）: 19.814764036374925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study building a multi-task agent in Minecraft. Without human demonstrations, solving long-horizon tasks in this open-ended environment with reinforcement learning (RL) is extremely sample inefficient. To tackle the challenge, we decompose solving Minecraft tasks into learning basic skills and planning over the skills. We propose three types of fine-grained basic skills in Minecraft, and use RL with intrinsic rewards to accomplish basic skills with high success rates. For skill planning, we use Large Language Models to find the relationships between skills and build a skill graph in advance. When the agent is solving a task, our skill search algorithm walks on the skill graph and generates the proper skill plans for the agent. In experiments, our method accomplishes 24 diverse Minecraft tasks, where many tasks require sequentially executing for more than 10 skills. Our method outperforms baselines in most tasks by a large margin. The project's website and code can be found at https://sites.google.com/view/plan4mc.
Abstract（参考訳）: 我々はminecraftでマルチタスクエージェントを構築することを学ぶ。人間の実演がなければ、強化学習(RL)を用いたこのオープンエンド環境での長期的タスクの解決は極めて非効率である。この課題に取り組むために、Minecraftのタスクを分解して基本的なスキルを学び、スキルを計画する。本稿では,Minecraftにおける3種類の基礎スキルを提案し,本質的な報酬でRLを用いて,高い成功率で基礎スキルを実現する。スキルプランニングには、大きな言語モデルを使用してスキル間の関係を見つけ、事前にスキルグラフを構築する。エージェントがタスクを解くとき、スキル検索アルゴリズムはスキルグラフの上を歩き、エージェントの適切なスキルプランを生成する。実験では、多数のタスクが10以上のスキルで順次実行する必要がある24の多様なminecraftタスクを実現する。提案手法は,ほとんどのタスクにおけるベースラインを大きなマージンで上回っている。プロジェクトのWebサイトとコードはhttps://sites.google.com/view/plan4mc.comにある。

関連論文リスト

Efficient Skill Discovery via Regret-Aware Optimization [37.27136009415794]
我々は、スキル生成とポリシー学習のミニマックスゲームとしてスキル発見の枠組みを定めている。本稿では,時間的表現学習に基づく後悔認識手法を提案する。提案手法は高次元環境において15%ゼロショット改善を実現する。
論文参考訳（メタデータ） (2025-06-26T06:45:59Z)
Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文参考訳（メタデータ） (2025-03-27T20:43:36Z)
SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文参考訳（メタデータ） (2024-10-23T17:42:07Z)
SkillMimic: Learning Basketball Interaction Skills from Demonstrations [85.23012579911378]
我々は、エージェントがインタラクションスキルを学習する方法を根本的に変える統合データ駆動フレームワークであるSkillMimicを紹介した。私たちの重要な洞察は、統合されたHOI模倣報酬は、HOIデータセットから多様な相互作用パターンの本質を効果的に捉えることができるということです。評価のために,約35分間のバスケットボールスキルを含む2つのバスケットボールデータセットを収集,導入した。
論文参考訳（メタデータ） (2024-08-12T15:19:04Z)
Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。残る課題は、さまざまな基本的なスキルを取得することです。 LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文参考訳（メタデータ） (2024-05-23T19:44:03Z)
Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。 Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文参考訳（メタデータ） (2022-11-23T23:31:14Z)
Residual Skill Policies: Learning an Adaptable Skill-based Action Space for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文参考訳（メタデータ） (2022-11-04T02:42:17Z)
Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。 LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文参考訳（メタデータ） (2022-02-02T08:29:04Z)
Example-Driven Model-Based Reinforcement Learning for Solving Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文参考訳（メタデータ） (2021-09-21T16:48:07Z)
Multi-task curriculum learning in a complex, visual, hard-exploration domain: Minecraft [18.845438529816004]
私たちは、複雑な視覚的な領域でカリキュラムの学習を探索し、多くの難しい探索課題を経験します。学習の進歩は,効果的なカリキュラムを自動構築する上で,学習可能性の信頼性の高い尺度であることが判明した。
論文参考訳（メタデータ） (2021-06-28T17:50:40Z)
Discovering Generalizable Skills via Automated Generation of Diverse Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文参考訳（メタデータ） (2021-06-26T03:41:51Z)
Accelerating Reinforcement Learning with Learned Skill Priors [20.268358783821487]
現代の強化学習アプローチは、すべてのタスクをゼロから学習する。事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。学習したスキル事前は、リッチデータセットからの効果的なスキル伝達に不可欠であることを示す。
論文参考訳（メタデータ） (2020-10-22T17:59:51Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。