論文の概要: RMP2: A Structured Composable Policy Class for Robot Learning
- arxiv url: http://arxiv.org/abs/2103.05922v1
- Date: Wed, 10 Mar 2021 08:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:39:59.056402
- Title: RMP2: A Structured Composable Policy Class for Robot Learning
- Title(参考訳): rmp2: ロボット学習のための構造化コンポーザブルポリシークラス
- Authors: Anqi Li, Ching-An Cheng, M. Asif Rana, Man Xie, Karl Van Wyk, Nathan
Ratliff, Byron Boots
- Abstract要約: RMPflowが指定する構造化ポリシークラスを用いて、加速型ロボットシステムの動作ポリシーを学習する問題を検討する。
RMPflowはマルチタスク制御フレームワークであり、多くのロボティクス問題にうまく適用されている。
RMP2と呼ばれるRMPflowのメッセージパッシングアルゴリズムを再検討し、RMPflowポリシーを計算するためのより効率的なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 36.35483747142448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning motion policies for acceleration-based
robotics systems with a structured policy class specified by RMPflow. RMPflow
is a multi-task control framework that has been successfully applied in many
robotics problems. Using RMPflow as a structured policy class in learning has
several benefits, such as sufficient expressiveness, the flexibility to inject
different levels of prior knowledge as well as the ability to transfer policies
between robots. However, implementing a system for end-to-end learning RMPflow
policies faces several computational challenges. In this work, we re-examine
the message passing algorithm of RMPflow and propose a more efficient alternate
algorithm, called RMP2, that uses modern automatic differentiation tools (such
as TensorFlow and PyTorch) to compute RMPflow policies. Our new design retains
the strengths of RMPflow while bringing in advantages from automatic
differentiation, including 1) easy programming interfaces to designing complex
transformations; 2) support of general directed acyclic graph (DAG)
transformation structures; 3) end-to-end differentiability for policy learning;
4) improved computational efficiency. Because of these features, RMP2 can be
treated as a structured policy class for efficient robot learning which is
suitable encoding domain knowledge. Our experiments show that using structured
policy class given by RMP2 can improve policy performance and safety in
reinforcement learning tasks for goal reaching in cluttered space.
- Abstract(参考訳): RMPflowが指定する構造化ポリシークラスを用いて、加速型ロボットシステムの動作ポリシーを学習する問題を検討する。
RMPflowはマルチタスク制御フレームワークであり、多くのロボティクス問題にうまく適用されている。
学習における構造化ポリシークラスとしてRMPflowを使用することは、十分な表現性、事前知識の異なるレベルを注入する柔軟性、ロボット間でポリシーを転送する能力など、いくつかのメリットがある。
しかし、エンドツーエンド学習のためのRMPflowポリシーの実装は、いくつかの計算課題に直面している。
本研究では、RMPflowのメッセージパッシングアルゴリズムを再検討し、RMPflowポリシーの計算に現代的な自動微分ツール(TensorFlowやPyTorchなど)を使用するRMP2という、より効率的な代替アルゴリズムを提案する。
新しい設計では,RMPflowの強みを保ちながら,1)複雑な変換を設計する簡単なプログラミングインターフェース,2)汎用非巡回グラフ(DAG)変換構造のサポート,3)ポリシー学習におけるエンドツーエンドの微分可能性,4)計算効率の向上など,自動微分の利点を生かしている。
これらの特徴により、rmp2はドメイン知識のエンコーディングに適した効率的なロボット学習のための構造化ポリシークラスとして扱うことができる。
本実験では,RMP2が付与する構造化ポリシクラスを使用することで,目標達成のための強化学習タスクにおけるポリシパフォーマンスと安全性を改善できることを示した。
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Riemannian Flow Matching Policy for Robot Motion Learning [5.724027955589408]
本稿では,ロボットビジュモータポリシーの学習と合成のための新しいモデルを提案する。
RFMPはよりスムーズな行動軌跡を提供し,推論時間を大幅に短縮することを示した。
論文 参考訳(メタデータ) (2024-03-15T20:48:41Z) - Efficiently Learning Small Policies for Locomotion and Manipulation [12.340412143459869]
グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:49:00Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。