論文の概要: Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies
- arxiv url: http://arxiv.org/abs/2112.05062v1
- Date: Thu, 9 Dec 2021 17:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 14:51:06.452746
- Title: Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies
- Title(参考訳): 階層的潜伏混合ポリシーを用いた学習伝達性運動スキル
- Authors: Dushyant Rao, Fereshteh Sadeghi, Leonard Hasenclever, Markus
Wulfmeier, Martina Zambelli, Giulia Vezzani, Dhruva Tirumala, Yusuf Aytar,
Josh Merel, Nicolas Heess, and Raia Hadsell
- Abstract要約: 階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
- 参考スコア(独自算出の注目度): 37.09286945259353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For robots operating in the real world, it is desirable to learn reusable
behaviours that can effectively be transferred and adapted to numerous tasks
and scenarios. We propose an approach to learn abstract motor skills from data
using a hierarchical mixture latent variable model. In contrast to existing
work, our method exploits a three-level hierarchy of both discrete and
continuous latent variables, to capture a set of high-level behaviours while
allowing for variance in how they are executed. We demonstrate in manipulation
domains that the method can effectively cluster offline data into distinct,
executable behaviours, while retaining the flexibility of a continuous latent
variable model. The resulting skills can be transferred and fine-tuned on new
tasks, unseen objects, and from state to vision-based policies, yielding better
sample efficiency and asymptotic performance compared to existing skill- and
imitation-based methods. We further analyse how and when the skills are most
beneficial: they encourage directed exploration to cover large regions of the
state space relevant to the task, making them most effective in challenging
sparse-reward settings.
- Abstract(参考訳): 現実世界で動作しているロボットには、多くのタスクやシナリオに効果的に移行し適応できる再利用可能な行動を学ぶことが望ましい。
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
既存の作業とは対照的に,本手法では離散変数と連続変数の3段階階層を活用し,高レベルの振る舞いのセットをキャプチャし,それらの実行方法のばらつきを許容する。
提案手法は,連続潜伏変数モデルの柔軟性を維持しつつ,オフラインデータを独立して実行可能な動作に効果的にクラスタリングできることを示す。
得られたスキルは、新しいタスク、目に見えないオブジェクト、および状態からビジョンベースのポリシーで転送および微調整され、既存のスキルおよび模倣ベースの方法と比較して、よりよいサンプル効率と漸近的なパフォーマンスが得られる。
それらは、タスクに関連する州領域の広い領域をカバーするよう指示された探索を奨励し、スパース・リワード(sparse-reward)設定に挑戦するのに最も効果的である。
関連論文リスト
- On Learning Informative Trajectory Embeddings for Imitation, Classification and Regression [19.01804572722833]
実世界のシーケンシャルな意思決定タスクでは、観察された状態-行動軌跡から学ぶことは、模倣、分類、クラスタリングのようなタスクには不可欠である。
本稿では,動的意思決定プロセスにおけるスキルと能力の獲得を目的とした,状態行動軌跡を潜在空間に埋め込む新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T06:52:58Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。