論文の概要: Latent Plans for Task-Agnostic Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.08959v1
- Date: Mon, 19 Sep 2022 12:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:58:35.044325
- Title: Latent Plans for Task-Agnostic Offline Reinforcement Learning
- Title(参考訳): タスクに依存しないオフライン強化学習の潜在計画
- Authors: Erick Rosete-Beas, Oier Mees, Gabriel Kalweit, Joschka Boedecker,
Wolfram Burgard
- Abstract要約: 本研究では,高次元カメラ観測からタスク非依存のロングホライゾンポリシーを学習するための新しい階層的アプローチを提案する。
我々の定式化によって、未確認のスキルの組み合わせを生産し、潜伏したスキルを"ステッチ"することで、時間的に拡張された目標を達成することが可能であることが示される。
実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
- 参考スコア(独自算出の注目度): 32.938030244921755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Everyday tasks of long-horizon and comprising a sequence of multiple implicit
subtasks still impose a major challenge in offline robot control. While a
number of prior methods aimed to address this setting with variants of
imitation and offline reinforcement learning, the learned behavior is typically
narrow and often struggles to reach configurable long-horizon goals. As both
paradigms have complementary strengths and weaknesses, we propose a novel
hierarchical approach that combines the strengths of both methods to learn
task-agnostic long-horizon policies from high-dimensional camera observations.
Concretely, we combine a low-level policy that learns latent skills via
imitation learning and a high-level policy learned from offline reinforcement
learning for skill-chaining the latent behavior priors. Experiments in various
simulated and real robot control tasks show that our formulation enables
producing previously unseen combinations of skills to reach temporally extended
goals by "stitching" together latent skills through goal chaining with an
order-of-magnitude improvement in performance upon state-of-the-art baselines.
We even learn one multi-task visuomotor policy for 25 distinct manipulation
tasks in the real world which outperforms both imitation learning and offline
reinforcement learning techniques.
- Abstract(参考訳): 長い水平と複数の暗黙のサブタスクからなる毎日のタスクは、まだオフラインロボット制御において大きな課題を課している。
模倣とオフライン強化学習の変種でこの設定に対処するための多くの先行手法は、学習された動作は通常狭く、構成可能な長期ホリゾン目標に達するのに苦労している。
両パラダイムは相補的な長所と短所を持つため,高次元カメラ観測からタスク非依存長所ポリシーを学習するための両手法の長所を組み合わせた新しい階層的アプローチを提案する。
具体的には,模倣学習を通じて潜在スキルを学習する低レベルポリシと,オフライン強化学習から学んだ高レベルポリシを組み合わせることで,潜在スキルを事前にチェーンする。
様々なシミュレーションおよび実ロボット制御タスクにおける実験により,前例のないスキルの組み合わせを,目標連鎖による潜在スキルの“スティッチ”と,最先端のベースラインにおけるパフォーマンスの向上による,時間的拡張目標への到達を可能にした。
実世界の25の異なる操作タスクに対するマルチタスクビズモータポリシーも学習し、模倣学習とオフライン強化学習の両方に優れています。
関連論文リスト
- Robust Policy Learning via Offline Skill Diffusion [6.876580618014666]
本稿では,新しいオフラインスキル学習フレームワークDuSkillを紹介する。
DuSkillはガイド付き拡散モデルを使用して、データセットの限られたスキルから拡張された多目的スキルを生成する。
我々は,DuSkillが複数の長期タスクに対して,他のスキルベースの模倣学習やRLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-01T02:00:44Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Learning Temporally Extended Skills in Continuous Domains as Symbolic
Actions for Planning [2.642698101441705]
長期計画と継続的な制御能力の両方を必要とする問題は、既存の強化学習エージェントに重大な課題をもたらす。
本稿では,環境の計画状態の象徴的抽象化において,継続的制御のための時間的拡張スキルとフォワードモデルとをリンクする新しい階層型強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2022-07-11T17:13:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。