論文の概要: Efficient Learning of High Level Plans from Play
- arxiv url: http://arxiv.org/abs/2303.09628v1
- Date: Thu, 16 Mar 2023 20:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:26:32.635204
- Title: Efficient Learning of High Level Plans from Play
- Title(参考訳): 遊びから高レベルプランの効率的な学習
- Authors: N\'uria Armengol Urp\'i, Marco Bagatella, Otmar Hilliges, Georg
Martius, Stelian Coros
- Abstract要約: 本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
- 参考スコア(独自算出の注目度): 57.29562823883257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world robotic manipulation tasks remain an elusive challenge, since they
involve both fine-grained environment interaction, as well as the ability to
plan for long-horizon goals. Although deep reinforcement learning (RL) methods
have shown encouraging results when planning end-to-end in high-dimensional
environments, they remain fundamentally limited by poor sample efficiency due
to inefficient exploration, and by the complexity of credit assignment over
long horizons. In this work, we present Efficient Learning of High-Level Plans
from Play (ELF-P), a framework for robotic learning that bridges motion
planning and deep RL to achieve long-horizon complex manipulation tasks. We
leverage task-agnostic play data to learn a discrete behavioral prior over
object-centric primitives, modeling their feasibility given the current
context. We then design a high-level goal-conditioned policy which (1) uses
primitives as building blocks to scaffold complex long-horizon tasks and (2)
leverages the behavioral prior to accelerate learning. We demonstrate that
ELF-P has significantly better sample efficiency than relevant baselines over
multiple realistic manipulation tasks and learns policies that can be easily
transferred to physical hardware.
- Abstract(参考訳): 現実世界のロボット操作タスクは、細粒度の環境相互作用と、長期の目標を計画する能力の両方を含むため、明らかに難しい課題である。
深層強化学習(deep reinforcement learning, rl)法は,高次元環境におけるエンド・ツー・エンド計画において有意な成果を示したが,非効率な探索によるサンプル効率の低下や,長期にわたるクレジット割り当ての複雑さなどにより,基本的に制限されたままである。
本稿では,ロボット学習のためのフレームワークであるplay(elf-p)による高レベル計画の効率的な学習について述べる。
我々はタスクに依存しない遊びデータを利用して、オブジェクト中心のプリミティブよりも先に離散的な振る舞いを学習し、現在のコンテキストからその実現可能性のモデル化を行う。
次に,(1)プリミティブをビルディングブロックとして使用して,複雑な長方形タスクを足場とし,(2)学習の加速に先立って行動を活用する高レベル目標条件ポリシーを設計する。
ELF-Pは、複数のリアルな操作タスクよりもはるかに優れたサンプル効率を示し、物理ハードウェアに簡単に移行可能なポリシーを学習する。
関連論文リスト
- Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。
CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。
実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Successor Feature Landmarks for Long-Horizon Goal-Conditioned
Reinforcement Learning [54.378444600773875]
大規模で高次元の環境を探索するフレームワークであるSFL(Successor Feature Landmarks)を紹介する。
SFLは、状態のノベルティを推定して探索を推進し、状態空間を非パラメトリックなランドマークベースのグラフとして抽象化することで、高レベルな計画を可能にする。
我々は,MiniGrid と ViZDoom の実験において,SFL が大規模高次元状態空間の効率的な探索を可能にすることを示す。
論文 参考訳(メタデータ) (2021-11-18T18:36:05Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文 参考訳(メタデータ) (2020-04-22T21:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。