論文の概要: Skill Reinforcement Learning and Planning for Open-World Long-Horizon
Tasks
- arxiv url: http://arxiv.org/abs/2303.16563v2
- Date: Mon, 4 Dec 2023 14:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:13:27.727706
- Title: Skill Reinforcement Learning and Planning for Open-World Long-Horizon
Tasks
- Title(参考訳): オープンワールド・ロングホリゾンタスクのためのスキル強化学習と計画
- Authors: Haoqi Yuan, Chi Zhang, Hongcheng Wang, Feiyang Xie, Penglin Cai, Hao
Dong, Zongqing Lu
- Abstract要約: オープンワールド環境におけるマルチタスクエージェントの構築について検討する。
我々は,マルチタスク学習問題を基礎的スキルの学習や,そのスキルの計画に転換する。
提案手法は40種類のMinecraftタスクをこなし,10以上のスキルを順次実行するタスクが多数存在する。
- 参考スコア(独自算出の注目度): 31.084848672383185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study building multi-task agents in open-world environments. Without human
demonstrations, learning to accomplish long-horizon tasks in a large open-world
environment with reinforcement learning (RL) is extremely inefficient. To
tackle this challenge, we convert the multi-task learning problem into learning
basic skills and planning over the skills. Using the popular open-world game
Minecraft as the testbed, we propose three types of fine-grained basic skills,
and use RL with intrinsic rewards to acquire skills. A novel Finding-skill that
performs exploration to find diverse items provides better initialization for
other skills, improving the sample efficiency for skill learning. In skill
planning, we leverage the prior knowledge in Large Language Models to find the
relationships between skills and build a skill graph. When the agent is solving
a task, our skill search algorithm walks on the skill graph and generates the
proper skill plans for the agent. In experiments, our method accomplishes 40
diverse Minecraft tasks, where many tasks require sequentially executing for
more than 10 skills. Our method outperforms baselines by a large margin and is
the most sample-efficient demonstration-free RL method to solve Minecraft Tech
Tree tasks. The project's website and code can be found at
https://sites.google.com/view/plan4mc.
- Abstract(参考訳): オープンワールド環境におけるマルチタスクエージェントの構築について検討する。
人間の実演がなければ、強化学習(RL)による大規模なオープンワールド環境での長期作業の学習は極めて非効率である。
この課題に対処するため、我々はマルチタスク学習問題を基礎的スキルの学習とスキルの計画に変換する。
人気のオープンワールドゲームMinecraftをテストベッドとして使用し、3種類のきめ細かい基本スキルを提案し、RLに固有の報酬を加えてスキルを習得する。
多様な項目を見つけるための探索を行う新しいファインディングスキルは、他のスキルのより優れた初期化を提供し、スキル学習のサンプル効率を改善する。
スキルプランニングでは,事前知識を大規模言語モデルで活用し,スキル間の関係を見つけ,スキルグラフを構築する。
エージェントがタスクを解くとき、スキル検索アルゴリズムはスキルグラフの上を歩き、エージェントの適切なスキルプランを生成する。
実験では,40種類のMinecraftタスクを達成し,10以上のスキルを順次実行するタスクが多数存在する。
提案手法は,マインクラフト技術ツリーのタスクを解く上で,最もサンプル効率のよいRL法である。
プロジェクトのWebサイトとコードはhttps://sites.google.com/view/plan4mc.comにある。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Residual Skill Policies: Learning an Adaptable Skill-based Action Space
for Reinforcement Learning for Robotics [18.546688182454236]
スキルベース強化学習(RL)は、ロボット学習の加速に先行知識を活用するための有望な戦略として登場した。
本研究では,状態条件付き生成モデルを用いて,スキル空間における探索を高速化する手法を提案する。
我々は4つの困難な操作タスクにまたがってアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-04T02:42:17Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Example-Driven Model-Based Reinforcement Learning for Solving
Long-Horizon Visuomotor Tasks [85.56153200251713]
長軸ビズモータタスクの完了に適したプリミティブスキルを学習するためのモデルベースRL手法EMBRを紹介する。
フランカ・エミカのロボットアームでは、EMBRによってロボットは85%の成功率で3つの長い水平視運動タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2021-09-21T16:48:07Z) - Multi-task curriculum learning in a complex, visual, hard-exploration
domain: Minecraft [18.845438529816004]
私たちは、複雑な視覚的な領域でカリキュラムの学習を探索し、多くの難しい探索課題を経験します。
学習の進歩は,効果的なカリキュラムを自動構築する上で,学習可能性の信頼性の高い尺度であることが判明した。
論文 参考訳(メタデータ) (2021-06-28T17:50:40Z) - Discovering Generalizable Skills via Automated Generation of Diverse
Tasks [82.16392072211337]
本稿では,多種多様なタスクの自動生成による一般化可能なスキルの発見手法を提案する。
教師なしスキル発見の先行研究とは対照的に,本手法では各スキルをトレーニング可能なタスクジェネレータが生成するユニークなタスクとペアリングする。
生成したタスクにおけるロボットの動作に定義されたタスク判別器を共同で訓練し、多様性目標の低いエビデンスを推定する。
学習スキルは階層的な強化学習アルゴリズムで構成され、目に見えない目標タスクを解決する。
論文 参考訳(メタデータ) (2021-06-26T03:41:51Z) - Accelerating Reinforcement Learning with Learned Skill Priors [20.268358783821487]
現代の強化学習アプローチは、すべてのタスクをゼロから学習する。
事前知識を活用する1つのアプローチは、事前タスクで学んだスキルを新しいタスクに移すことである。
学習したスキル事前は、リッチデータセットからの効果的なスキル伝達に不可欠であることを示す。
論文 参考訳(メタデータ) (2020-10-22T17:59:51Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。