論文の概要: Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies
- arxiv url: http://arxiv.org/abs/2112.05062v1
- Date: Thu, 9 Dec 2021 17:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:51:06.452746
- Title: Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies
- Title(参考訳): 階層的潜伏混合ポリシーを用いた学習伝達性運動スキル
- Authors: Dushyant Rao, Fereshteh Sadeghi, Leonard Hasenclever, Markus
Wulfmeier, Martina Zambelli, Giulia Vezzani, Dhruva Tirumala, Yusuf Aytar,
Josh Merel, Nicolas Heess, and Raia Hadsell
- Abstract要約: 階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
- 参考スコア(独自算出の注目度): 37.09286945259353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For robots operating in the real world, it is desirable to learn reusable
behaviours that can effectively be transferred and adapted to numerous tasks
and scenarios. We propose an approach to learn abstract motor skills from data
using a hierarchical mixture latent variable model. In contrast to existing
work, our method exploits a three-level hierarchy of both discrete and
continuous latent variables, to capture a set of high-level behaviours while
allowing for variance in how they are executed. We demonstrate in manipulation
domains that the method can effectively cluster offline data into distinct,
executable behaviours, while retaining the flexibility of a continuous latent
variable model. The resulting skills can be transferred and fine-tuned on new
tasks, unseen objects, and from state to vision-based policies, yielding better
sample efficiency and asymptotic performance compared to existing skill- and
imitation-based methods. We further analyse how and when the skills are most
beneficial: they encourage directed exploration to cover large regions of the
state space relevant to the task, making them most effective in challenging
sparse-reward settings.
- Abstract(参考訳): 現実世界で動作しているロボットには、多くのタスクやシナリオに効果的に移行し適応できる再利用可能な行動を学ぶことが望ましい。
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
既存の作業とは対照的に,本手法では離散変数と連続変数の3段階階層を活用し,高レベルの振る舞いのセットをキャプチャし,それらの実行方法のばらつきを許容する。
提案手法は,連続潜伏変数モデルの柔軟性を維持しつつ,オフラインデータを独立して実行可能な動作に効果的にクラスタリングできることを示す。
得られたスキルは、新しいタスク、目に見えないオブジェクト、および状態からビジョンベースのポリシーで転送および微調整され、既存のスキルおよび模倣ベースの方法と比較して、よりよいサンプル効率と漸近的なパフォーマンスが得られる。
それらは、タスクに関連する州領域の広い領域をカバーするよう指示された探索を奨励し、スパース・リワード(sparse-reward)設定に挑戦するのに最も効果的である。
関連論文リスト
- SLIM: Skill Learning with Multiple Critics [4.757470449749877]
自己監督型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を活用することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは特に成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多変量学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z) - Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of
Gaussian Processes [25.513074215377696]
本稿では,連続的なオンラインモデルに基づく強化学習手法を提案する。
未知のタスク境界を持つタスク非依存の問題を解決するためには、事前トレーニングを必要としない。
実験では,本手法は非定常タスクにおける代替手法よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T23:52:45Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。