論文の概要: Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills
- arxiv url: http://arxiv.org/abs/2010.13766v3
- Date: Fri, 11 Feb 2022 01:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:17:21.707076
- Title: Contextual Latent-Movements Off-Policy Optimization for Robotic
Manipulation Skills
- Title(参考訳): ロボットマニピュレーションスキルのためのコンテキスト潜在移動オフポリティ最適化
- Authors: Samuele Tosatto, Georgia Chalvatzaki, Jan Peters
- Abstract要約: 本稿では,低次元非線形潜在力学の獲得のために,実験軌道の扱いに関する新しい考え方を提案する。
LAAMPO (Latent-Movements Policy Optimization) と呼ばれる新しい文脈外RLアルゴリズムを導入する。
LAMPOは、文献における一般的なアプローチに対するサンプル効率のよいポリシーを提供する。
- 参考スコア(独自算出の注目度): 41.140532647789456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameterized movement primitives have been extensively used for imitation
learning of robotic tasks. However, the high-dimensionality of the parameter
space hinders the improvement of such primitives in the reinforcement learning
(RL) setting, especially for learning with physical robots. In this paper we
propose a novel view on handling the demonstrated trajectories for acquiring
low-dimensional, non-linear latent dynamics, using mixtures of probabilistic
principal component analyzers (MPPCA) on the movements' parameter space.
Moreover, we introduce a new contextual off-policy RL algorithm, named
LAtent-Movements Policy Optimization (LAMPO). LAMPO can provide gradient
estimates from previous experience using self-normalized importance sampling,
hence, making full use of samples collected in previous learning iterations.
These advantages combined provide a complete framework for sample-efficient
off-policy optimization of movement primitives for robot learning of
high-dimensional manipulation skills. Our experimental results conducted both
in simulation and on a real robot show that LAMPO provides sample-efficient
policies against common approaches in literature.
- Abstract(参考訳): パラメータ化された運動プリミティブはロボットタスクの模倣学習に広く用いられている。
しかし,パラメータ空間の高次元性は,強化学習(RL)環境において,特に物理ロボットによる学習において,そのようなプリミティブの改善を妨げる。
本稿では,運動パラメータ空間上での確率的主成分分析器(MPPCA)の混合を用いて,低次元非線形潜在力学を得るための実験軌道に対する新しい視点を提案する。
さらに,latnt-movements policy optimization (lampo) という新しい文脈オフポリシーrlアルゴリズムを導入する。
LAMPOは、自己正規化された重要度サンプリングを使用して、以前の経験からの勾配推定を提供する。
これらの利点は、高次元操作スキルのロボット学習のための運動プリミティブのサンプル効率のオフポリシー最適化のための完全なフレームワークを提供する。
シミュレーションと実ロボットで行った実験の結果,LAMPOは文学における一般的なアプローチに対して,サンプル効率のよいポリシーを提供することがわかった。
関連論文リスト
- MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - Incremental Few-Shot Adaptation for Non-Prehensile Object Manipulation using Parallelizable Physics Simulators [5.483662156126757]
本稿では,物理に基づく力学モデルをモデル予測制御に繰り返し適用する,非包括的操作のための新しいアプローチを提案する。
ロボットとオブジェクトの相互作用の例として,モデルのパラメータを漸進的に適用する。
シミュレーションおよび実ロボットを用いたいくつかの物体押出実験において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-20T05:24:25Z) - Navigating the Human Maze: Real-Time Robot Pathfinding with Generative Imitation Learning [0.0]
目標条件付き自己回帰モデルを導入し,個人間の複雑な相互作用を捉える。
このモデルは、潜在的なロボット軌道サンプルを処理し、周囲の個人の反応を予測する。
論文 参考訳(メタデータ) (2024-08-07T14:32:41Z) - Machine Learning Optimized Approach for Parameter Selection in MESHFREE Simulations [0.0]
従来のメッシュベースのアプローチに代わる魅力的な代替手段として、メッシュフリーシミュレーション手法が登場している。
機械学習(ML)とFraunhoferのMESHFREEソフトウェアを組み合わせた研究の概要について概説する。
本稿では,MESHFREEシミュレーションデータに能動的学習,回帰木を用いたML最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T15:29:59Z) - Using Implicit Behavior Cloning and Dynamic Movement Primitive to Facilitate Reinforcement Learning for Robot Motion Planning [3.16488279864227]
ロボットの運動計画のための強化学習(RL)は、遅い訓練速度と低い一般化性の観点から、低効率に苦しむ。
本稿では、暗黙的行動クローニング(IBC)と動的運動プリミティブ(DMP)を用いて、非政治的RLエージェントのトレーニング速度と一般化性を向上する新しいRLベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-29T19:46:09Z) - A dynamic Bayesian optimized active recommender system for
curiosity-driven Human-in-the-loop automated experiments [8.780395483188242]
ベイズ最適化アクティブレコメンデーションシステム(BOARS)によるループ実験ワークフローにおける新しいタイプの人間の開発について述べる。
この研究は、実験領域にわたるシステムの好奇心駆動的な探索に、人間の強化された機械学習アプローチの有用性を示す。
論文 参考訳(メタデータ) (2023-04-05T14:54:34Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。