論文の概要: Neural Dynamic Policies for End-to-End Sensorimotor Learning
- arxiv url: http://arxiv.org/abs/2012.02788v1
- Date: Fri, 4 Dec 2020 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:54:55.580269
- Title: Neural Dynamic Policies for End-to-End Sensorimotor Learning
- Title(参考訳): エンド・ツー・エンドのセンサモレータ学習のためのニューラル・ダイナミック・ポリシー
- Authors: Shikhar Bahl, Mustafa Mukadam, Abhinav Gupta, Deepak Pathak
- Abstract要約: 感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
- 参考スコア(独自算出の注目度): 51.24542903398335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current dominant paradigm in sensorimotor control, whether imitation or
reinforcement learning, is to train policies directly in raw action spaces such
as torque, joint angle, or end-effector position. This forces the agent to make
decisions individually at each timestep in training, and hence, limits the
scalability to continuous, high-dimensional, and long-horizon tasks. In
contrast, research in classical robotics has, for a long time, exploited
dynamical systems as a policy representation to learn robot behaviors via
demonstrations. These techniques, however, lack the flexibility and
generalizability provided by deep learning or reinforcement learning and have
remained under-explored in such settings. In this work, we begin to close this
gap and embed the structure of a dynamical system into deep neural
network-based policies by reparameterizing action spaces via second-order
differential equations. We propose Neural Dynamic Policies (NDPs) that make
predictions in trajectory distribution space as opposed to prior policy
learning methods where actions represent the raw control space. The embedded
structure allows end-to-end policy learning for both reinforcement and
imitation learning setups. We show that NDPs outperform the prior
state-of-the-art in terms of either efficiency or performance across several
robotic control tasks for both imitation and reinforcement learning setups.
Project video and code are available at
https://shikharbahl.github.io/neural-dynamic-policies/
- Abstract(参考訳): 感覚運動器制御における現在の支配的なパラダイムは、模倣や強化学習であっても、トルク、関節角、エンドエフェクタ位置といった生のアクション空間でポリシーを直接訓練することである。
これにより、エージェントはトレーニングの各時間ステップで個別に決定し、従ってスケーラビリティを連続的、高次元、長距離のタスクに制限する。
対照的に、古典ロボットの研究は、長い間、デモを通してロボットの振る舞いを学ぶための政策表現として、力学システムを利用してきた。
しかし、これらの手法は深層学習や強化学習によって提供される柔軟性と一般化性に欠けており、そのような環境では未調査のままである。
本研究では、このギャップを埋め、二階微分方程式を用いて作用空間を再パラメータ化することにより、動的システムの構造をディープニューラルネットワークベースのポリシーに組み込む。
本稿では,行動が生の制御空間を表す事前の政策学習手法とは対照的に,軌道分布空間における予測を行う神経力学ポリシ(ndps)を提案する。
組込み構造は、強化学習と模倣学習の両方のためのエンドツーエンドのポリシー学習を可能にする。
ndpsは,模倣学習と強化学習のいずれにおいても,複数のロボット制御タスクの効率や性能において,従来の最先端技術よりも優れていた。
プロジェクトビデオとコードはhttps://shikharbahl.github.io/neural-dynamic-policies/で入手できる。
関連論文リスト
- Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Lie Group Forced Variational Integrator Networks for Learning and
Control of Robot Systems [14.748599534387688]
本稿では,Lie群上で制御されたラグランジアンあるいはハミルトン力学を学習できる構造保存型ディープラーニングアーキテクチャを提案する。
リーFVINは、力学が進化するリー群構造と、ハミルトニアン系やラグランジアン系の下にあるシンプレクティック構造の両方を保存している。
論文 参考訳(メタデータ) (2022-11-29T08:14:05Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - On Simple Reactive Neural Networks for Behaviour-Based Reinforcement
Learning [5.482532589225552]
本稿では,Brookの仮定アーキテクチャに着想を得た行動に基づく強化学習手法を提案する。
作業上の前提は、ロボット開発者のドメイン知識を活用することで、ロボットのピック・アンド・プレイス・タスクを単純化できるということです。
提案手法では,8000エピソードのピック・アンド・プレイス・タスクを学習し,エンド・ツー・エンドアプローチで必要とされるトレーニング・エピソードの数を劇的に削減する。
論文 参考訳(メタデータ) (2020-01-22T11:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。