論文の概要: Hierarchical Neural Dynamic Policies
- arxiv url: http://arxiv.org/abs/2107.05627v1
- Date: Mon, 12 Jul 2021 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:21:15.007082
- Title: Hierarchical Neural Dynamic Policies
- Title(参考訳): 階層型ニューラルダイナミックポリシー
- Authors: Shikhar Bahl, Abhinav Gupta, Deepak Pathak
- Abstract要約: 我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
- 参考スコア(独自算出の注目度): 50.969565411919376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of generalization to unseen configurations for dynamic
tasks in the real world while learning from high-dimensional image input. The
family of nonlinear dynamical system-based methods have successfully
demonstrated dynamic robot behaviors but have difficulty in generalizing to
unseen configurations as well as learning from image inputs. Recent works
approach this issue by using deep network policies and reparameterize actions
to embed the structure of dynamical systems but still struggle in domains with
diverse configurations of image goals, and hence, find it difficult to
generalize. In this paper, we address this dichotomy by leveraging embedding
the structure of dynamical systems in a hierarchical deep policy learning
framework, called Hierarchical Neural Dynamical Policies (H-NDPs). Instead of
fitting deep dynamical systems to diverse data directly, H-NDPs form a
curriculum by learning local dynamical system-based policies on small regions
in state-space and then distill them into a global dynamical system-based
policy that operates only from high-dimensional images. H-NDPs additionally
provide smooth trajectories, a strong safety benefit in the real world. We
perform extensive experiments on dynamic tasks both in the real world (digit
writing, scooping, and pouring) and simulation (catching, throwing, picking).
We show that H-NDPs are easily integrated with both imitation as well as
reinforcement learning setups and achieve state-of-the-art results. Video
results are at https://shikharbahl.github.io/hierarchical-ndps/
- Abstract(参考訳): 我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
非線形力学系に基づく手法のファミリーは、動的ロボットの動作をうまく実証しているが、画像入力から学習するだけでなく、目に見えない構成への一般化が困難である。
最近の研究は、ディープネットワークポリシーを用いて動的システムの構造を埋め込むためにアクションを再パラメータ化することでこの問題にアプローチしているが、画像目標の多様な構成を持つ領域では依然として苦戦しているため、一般化が困難である。
本稿では,階層型神経力学ポリシ(h-ndps)と呼ばれる階層型深層政策学習フレームワークに力学系の構造を組み込むことにより,この二分法に対処する。
H-NDPは、深層力学系を多様なデータに直接適合させる代わりに、状態空間内の小さな領域の局所力学系に基づくポリシーを学習し、それを高次元画像からのみ動作するグローバル力学系ベースのポリシーに蒸留することでカリキュラムを形成する。
さらに、h-ndpsはスムーズな軌道を提供し、現実世界において強力な安全上の利点がある。
実世界(デジタルライティング,スクーピング,注ぐ)とシミュレーション(キャッシング,投げ,摘み)の両方において,動的タスクに関する広範な実験を行う。
我々は,H-NDPが模倣と強化学習の両方と容易に統合され,最先端の成果が得られることを示した。
ビデオはhttps://shikharbahl.github.io/hierarchical-ndps/。
関連論文リスト
- Learning System Dynamics without Forgetting [60.08612207170659]
未知の力学を持つ系の軌道予測は、物理学や生物学を含む様々な研究分野において重要である。
本稿では,モードスイッチンググラフODE (MS-GODE) の新たなフレームワークを提案する。
生体力学の異なる多様な系を特徴とする生体力学システムの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-30T14:55:18Z) - Efficient PAC Learnability of Dynamical Systems Over Multilayer Networks [30.424671907681688]
より現実的で困難な多層ネットワーク上での動的システムの学習可能性について検討する。
本研究では,学習者が未知のシステムを推論するために,少数の学習例のみを必要とすることを示すための証明可能な保証付き効率的なPAC学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T02:35:08Z) - On the effectiveness of neural priors in modeling dynamical systems [28.69155113611877]
ニューラルネットワークがそのようなシステムを学ぶ際に提供するアーキテクチャの規則化について論じる。
動的システムをモデル化する際の複数の問題を解決するために,レイヤ数が少ない単純な座標ネットワークが利用できることを示す。
論文 参考訳(メタデータ) (2023-03-10T06:21:24Z) - Quantification before Selection: Active Dynamics Preference for Robust
Reinforcement Learning [5.720802072821204]
本稿では,サンプルシステムパラメータの情報量と密度を定量化するActive Dynamics Preference(ADP)を提案する。
トレーニング環境とテスト環境の異なる4つのロボット移動タスクにおいて,我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-09-23T13:59:55Z) - D$^3$FlowSLAM: Self-Supervised Dynamic SLAM with Flow Motion Decomposition and DINO Guidance [61.14088096348959]
本稿では,動的シーンにおいて動的コンポーネントを正確に識別しながら頑健に動作する自己教師型ディープSLAM法を提案する。
本稿では,この表現に基づく動的更新モジュールを提案し,動的シナリオに優れた高密度SLAMシステムの開発を行う。
論文 参考訳(メタデータ) (2022-07-18T17:47:39Z) - An Efficient Image-to-Image Translation HourGlass-based Architecture for
Object Pushing Policy Learning [20.77172985076276]
人間は日常のタスクを強制的に解決するが、これらの能力を解き放つことはロボティクスの課題だ。
本稿では,環境変化に寄与する予測器と,プッシュタスク専用の状態-作用値予測器を組み合わせたアーキテクチャを提案する。
我々は, UR5ロボットアームを用いたシミュレーション実験において, DQNがより速く学習し, 高い性能を達成するためのアーキテクチャを実証した。
論文 参考訳(メタデータ) (2021-08-02T16:46:08Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning Stable Deep Dynamics Models [91.90131512825504]
状態空間全体にわたって安定することが保証される力学系を学習するためのアプローチを提案する。
このような学習システムは、単純な力学系をモデル化することができ、複雑な力学を学習するために追加の深層生成モデルと組み合わせることができることを示す。
論文 参考訳(メタデータ) (2020-01-17T00:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。