論文の概要: Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills
- arxiv url: http://arxiv.org/abs/2010.13766v3
- Date: Fri, 11 Feb 2022 01:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:17:21.707076
- Title: Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills
- Title(参考訳): ロボットマニピュレーションスキルのためのコンテキスト潜在移動オフポリティ最適化
- Authors: Samuele Tosatto, Georgia Chalvatzaki, Jan Peters
- Abstract要約: 本稿では,低次元非線形潜在力学の獲得のために,実験軌道の扱いに関する新しい考え方を提案する。
LAAMPO (Latent-Movements Policy Optimization) と呼ばれる新しい文脈外RLアルゴリズムを導入する。
LAMPOは、文献における一般的なアプローチに対するサンプル効率のよいポリシーを提供する。
- 参考スコア(独自算出の注目度): 41.140532647789456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameterized movement primitives have been extensively used for imitation
learning of robotic tasks. However, the high-dimensionality of the parameter
space hinders the improvement of such primitives in the reinforcement learning
(RL) setting, especially for learning with physical robots. In this paper we
propose a novel view on handling the demonstrated trajectories for acquiring
low-dimensional, non-linear latent dynamics, using mixtures of probabilistic
principal component analyzers (MPPCA) on the movements' parameter space.
Moreover, we introduce a new contextual off-policy RL algorithm, named
LAtent-Movements Policy Optimization (LAMPO). LAMPO can provide gradient
estimates from previous experience using self-normalized importance sampling,
hence, making full use of samples collected in previous learning iterations.
These advantages combined provide a complete framework for sample-efficient
off-policy optimization of movement primitives for robot learning of
high-dimensional manipulation skills. Our experimental results conducted both
in simulation and on a real robot show that LAMPO provides sample-efficient
policies against common approaches in literature.
- Abstract(参考訳): パラメータ化された運動プリミティブはロボットタスクの模倣学習に広く用いられている。
しかし,パラメータ空間の高次元性は,強化学習(RL)環境において,特に物理ロボットによる学習において,そのようなプリミティブの改善を妨げる。
本稿では,運動パラメータ空間上での確率的主成分分析器(MPPCA)の混合を用いて,低次元非線形潜在力学を得るための実験軌道に対する新しい視点を提案する。
さらに,latnt-movements policy optimization (lampo) という新しい文脈オフポリシーrlアルゴリズムを導入する。
LAMPOは、自己正規化された重要度サンプリングを使用して、以前の経験からの勾配推定を提供する。
これらの利点は、高次元操作スキルのロボット学習のための運動プリミティブのサンプル効率のオフポリシー最適化のための完全なフレームワークを提供する。
シミュレーションと実ロボットで行った実験の結果,LAMPOは文学における一般的なアプローチに対して,サンプル効率のよいポリシーを提供することがわかった。
関連論文リスト
- Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Using Implicit Behavior Cloning and Dynamic Movement Primitive to
Facilitate Reinforcement Learning for Robot Motion Planning [1.7901837062462316]
ロボットの運動計画のための強化学習(RL)は、遅い訓練速度と低い一般化性の観点から、低効率に苦しむ。
本稿では、暗黙的行動クローニング(IBC)と動的運動プリミティブ(DMP)を用いて、非政治的RLエージェントのトレーニング速度と一般化性を向上する新しいRLベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-29T19:46:09Z) - A dynamic Bayesian optimized active recommender system for
curiosity-driven Human-in-the-loop automated experiments [8.780395483188242]
ベイズ最適化アクティブレコメンデーションシステム(BOARS)によるループ実験ワークフローにおける新しいタイプの人間の開発について述べる。
この研究は、実験領域にわたるシステムの好奇心駆動的な探索に、人間の強化された機械学習アプローチの有用性を示す。
論文 参考訳(メタデータ) (2023-04-05T14:54:34Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Active Exploration for Robotic Manipulation [40.39182660794481]
本稿では,スパース・リワード型ロボット操作作業における効率的な学習を可能にするモデルに基づく能動探索手法を提案する。
我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,スクラッチから本手法を訓練した。
論文 参考訳(メタデータ) (2022-10-23T18:07:51Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Dimensionality Reduction of Movement Primitives in Parameter Space [34.16700176918835]
運動プリミティブは、現実世界のロボティクスにとって重要なポリシークラスである。
パラメトリゼーションの高次元性により、政策最適化はサンプルと計算の両方においてコストがかかる。
本稿では,パラメータ空間における次元減少の応用を提案し,主運動を同定する。
論文 参考訳(メタデータ) (2020-02-26T16:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。