論文の概要: Skill-based Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.07560v1
- Date: Fri, 15 Jul 2022 16:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-18 14:07:31.453263
- Title: Skill-based Model-based Reinforcement Learning
- Title(参考訳): スキルベースモデルに基づく強化学習
- Authors: Lucy Xiaoyang Shi and Joseph J. Lim and Youngwoon Lee
- Abstract要約: モデルベース強化学習(RL)は、複雑な振る舞いを学習するサンプル効率のよい方法である。
本稿では,スキル領域における計画を可能にするSkill-based Model-based RL framework(SkiMo)を提案する。
学習したスキルダイナミクスモデルを利用して、スキル空間の長い地平線を正確にシミュレートし、計画する。
- 参考スコア(独自算出の注目度): 18.758245582997656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (RL) is a sample-efficient way of learning
complex behaviors by leveraging a learned single-step dynamics model to plan
actions in imagination. However, planning every action for long-horizon tasks
is not practical, akin to a human planning out every muscle movement. Instead,
humans efficiently plan with high-level skills to solve complex tasks. From
this intuition, we propose a Skill-based Model-based RL framework (SkiMo) that
enables planning in the skill space using a skill dynamics model, which
directly predicts the skill outcomes, rather than predicting all small details
in the intermediate states, step by step. For accurate and efficient long-term
planning, we jointly learn the skill dynamics model and a skill repertoire from
prior experience. We then harness the learned skill dynamics model to
accurately simulate and plan over long horizons in the skill space, which
enables efficient downstream learning of long-horizon, sparse reward tasks.
Experimental results in navigation and manipulation domains show that SkiMo
extends the temporal horizon of model-based approaches and improves the sample
efficiency for both model-based RL and skill-based RL. Code and videos are
available at \url{https://clvrai.com/skimo}
- Abstract(参考訳): モデルベース強化学習(RL)は、学習された単一ステップのダイナミックスモデルを利用して、想像力で行動計画を行うことにより、複雑な振る舞いを学習するサンプル効率のよい方法である。
しかし、長方形の作業に対するあらゆる行動の計画は実用的ではなく、全ての筋肉運動を計画する人間に似ている。
その代わり、人間は複雑なタスクを解決するための高度なスキルを効率的に計画する。
この直観から、スキルダイナミクスモデルを用いてスキル空間における計画を可能にするスキルベースモデルベースのrlフレームワーク(skimo)を提案し、中間状態におけるすべての小さな詳細をステップバイステップで予測するのではなく、スキル成果を直接予測する。
正確かつ効率的な長期計画のために,先行経験からスキルダイナミクスモデルとスキルレパートリーを共同学習する。
次に,学習スキルダイナミクスモデルを用いて,スキル空間における長大地平線を正確にシミュレートし,計画する。
ナビゲーションおよび操作領域の実験結果は、スキーモがモデルベースアプローチの時間軸を拡張し、モデルベースrlとスキルベースrlの両方のサンプル効率を向上させることを示している。
コードとビデオは \url{https://clvrai.com/skimo} で入手できる。
関連論文リスト
- PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文 参考訳(メタデータ) (2023-06-15T19:37:43Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Leveraging Jumpy Models for Planning and Fast Learning in Robotic
Domains [25.245208731491346]
本研究では,ラベルのない経験からマルチステップダイナミクス予測モデル(ジャンピーモデル)を学習する問題について検討する。
我々は,以前に収集した経験から,スキル埋め込みスペースのオフライン化とともに,跳躍モデルを学習することを提案する。
我々は、RGBスタック環境で一連の実験を行い、学習したスキルと関連するモデルによる計画が、新しいタスクにゼロショットの一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2023-02-24T13:26:03Z) - ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically
Simulated Characters [123.88692739360457]
汎用運動技術により、人間は複雑な作業を行うことができる。
これらのスキルは、新しいタスクを学ぶときの振る舞いを導くための強力な先駆者も提供します。
物理シミュレーション文字のための汎用的で再利用可能なスキル埋め込みを学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:13:28Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2021-11-15T16:58:50Z) - Predictive Control Using Learned State Space Models via Rolling Horizon
Evolution [2.1016374925364616]
本稿では、進化的アルゴリズム計画手法と、ディープラーニングと変分推論を用いて学習したモデルを組み合わせたテーマについて検討する。
視覚ナビゲーションタスクのセットにおいて,オンラインプランニングを確実に行うエージェントを用いて,このアプローチを実証する。
論文 参考訳(メタデータ) (2021-06-25T23:23:42Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。