論文の概要: Hierarchical Neural Dynamic Policies
- arxiv url: http://arxiv.org/abs/2107.05627v1
- Date: Mon, 12 Jul 2021 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:21:15.007082
- Title: Hierarchical Neural Dynamic Policies
- Title(参考訳): 階層型ニューラルダイナミックポリシー
- Authors: Shikhar Bahl, Abhinav Gupta, Deepak Pathak
- Abstract要約: 我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
- 参考スコア(独自算出の注目度): 50.969565411919376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of generalization to unseen configurations for dynamic
tasks in the real world while learning from high-dimensional image input. The
family of nonlinear dynamical system-based methods have successfully
demonstrated dynamic robot behaviors but have difficulty in generalizing to
unseen configurations as well as learning from image inputs. Recent works
approach this issue by using deep network policies and reparameterize actions
to embed the structure of dynamical systems but still struggle in domains with
diverse configurations of image goals, and hence, find it difficult to
generalize. In this paper, we address this dichotomy by leveraging embedding
the structure of dynamical systems in a hierarchical deep policy learning
framework, called Hierarchical Neural Dynamical Policies (H-NDPs). Instead of
fitting deep dynamical systems to diverse data directly, H-NDPs form a
curriculum by learning local dynamical system-based policies on small regions
in state-space and then distill them into a global dynamical system-based
policy that operates only from high-dimensional images. H-NDPs additionally
provide smooth trajectories, a strong safety benefit in the real world. We
perform extensive experiments on dynamic tasks both in the real world (digit
writing, scooping, and pouring) and simulation (catching, throwing, picking).
We show that H-NDPs are easily integrated with both imitation as well as
reinforcement learning setups and achieve state-of-the-art results. Video
results are at https://shikharbahl.github.io/hierarchical-ndps/
- Abstract(参考訳): 我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
非線形力学系に基づく手法のファミリーは、動的ロボットの動作をうまく実証しているが、画像入力から学習するだけでなく、目に見えない構成への一般化が困難である。
最近の研究は、ディープネットワークポリシーを用いて動的システムの構造を埋め込むためにアクションを再パラメータ化することでこの問題にアプローチしているが、画像目標の多様な構成を持つ領域では依然として苦戦しているため、一般化が困難である。
本稿では,階層型神経力学ポリシ(h-ndps)と呼ばれる階層型深層政策学習フレームワークに力学系の構造を組み込むことにより,この二分法に対処する。
H-NDPは、深層力学系を多様なデータに直接適合させる代わりに、状態空間内の小さな領域の局所力学系に基づくポリシーを学習し、それを高次元画像からのみ動作するグローバル力学系ベースのポリシーに蒸留することでカリキュラムを形成する。
さらに、h-ndpsはスムーズな軌道を提供し、現実世界において強力な安全上の利点がある。
実世界(デジタルライティング,スクーピング,注ぐ)とシミュレーション(キャッシング,投げ,摘み)の両方において,動的タスクに関する広範な実験を行う。
我々は,H-NDPが模倣と強化学習の両方と容易に統合され,最先端の成果が得られることを示した。
ビデオはhttps://shikharbahl.github.io/hierarchical-ndps/。
関連論文リスト
- Neural Policy Style Transfer [3.1158660854608824]
スタイルトランスファーは、美術、自然言語処理、固定軌跡など、様々な分野で提案されている。
私たちはこの概念を、Deep Reinforcement Learningのインフラ内でポリシーを制御するためにスケールアップします。
ディープニューラルネットワークの表現力は、セカンダリタスクのエンコーディングを可能にする。
論文 参考訳(メタデータ) (2024-02-01T15:37:42Z) - On the effectiveness of neural priors in modeling dynamical systems [28.69155113611877]
ニューラルネットワークがそのようなシステムを学ぶ際に提供するアーキテクチャの規則化について論じる。
動的システムをモデル化する際の複数の問題を解決するために,レイヤ数が少ない単純な座標ネットワークが利用できることを示す。
論文 参考訳(メタデータ) (2023-03-10T06:21:24Z) - Quantification before Selection: Active Dynamics Preference for Robust
Reinforcement Learning [5.720802072821204]
本稿では,サンプルシステムパラメータの情報量と密度を定量化するActive Dynamics Preference(ADP)を提案する。
トレーニング環境とテスト環境の異なる4つのロボット移動タスクにおいて,我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-09-23T13:59:55Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - An Efficient Image-to-Image Translation HourGlass-based Architecture for
Object Pushing Policy Learning [20.77172985076276]
人間は日常のタスクを強制的に解決するが、これらの能力を解き放つことはロボティクスの課題だ。
本稿では,環境変化に寄与する予測器と,プッシュタスク専用の状態-作用値予測器を組み合わせたアーキテクチャを提案する。
我々は, UR5ロボットアームを用いたシミュレーション実験において, DQNがより速く学習し, 高い性能を達成するためのアーキテクチャを実証した。
論文 参考訳(メタデータ) (2021-08-02T16:46:08Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning Stable Deep Dynamics Models [91.90131512825504]
状態空間全体にわたって安定することが保証される力学系を学習するためのアプローチを提案する。
このような学習システムは、単純な力学系をモデル化することができ、複雑な力学を学習するために追加の深層生成モデルと組み合わせることができることを示す。
論文 参考訳(メタデータ) (2020-01-17T00:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。