論文の概要: End-to-End Stable Imitation Learning via Autonomous Neural Dynamic
Policies
- arxiv url: http://arxiv.org/abs/2305.12886v1
- Date: Mon, 22 May 2023 10:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:50:23.228043
- Title: End-to-End Stable Imitation Learning via Autonomous Neural Dynamic
Policies
- Title(参考訳): 自律神経力学ポリシーによるエンドツーエンド安定模倣学習
- Authors: Dionis Totsila, Konstantinos Chatzilygeroudis, Denis Hadjivelichkov,
Valerio Modugno, Ioannis Hatzilygeroudis, Dimitrios Kanoulas
- Abstract要約: State-of-the-the-art Sensorimotor Learningアルゴリズムは、不安定な振る舞いをしばしば生成できるポリシーを提供する。
従来のロボット学習は、安定性と安全性を解析できる動的システムベースのポリシーに依存している。
本研究では,汎用ニューラルネットワークポリシと動的システムベースのポリシのギャップを埋める。
- 参考スコア(独自算出の注目度): 2.7941001040182765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art sensorimotor learning algorithms offer policies that can
often produce unstable behaviors, damaging the robot and/or the environment.
Traditional robot learning, on the contrary, relies on dynamical system-based
policies that can be analyzed for stability/safety. Such policies, however, are
neither flexible nor generic and usually work only with proprioceptive sensor
states. In this work, we bridge the gap between generic neural network policies
and dynamical system-based policies, and we introduce Autonomous Neural Dynamic
Policies (ANDPs) that: (a) are based on autonomous dynamical systems, (b)
always produce asymptotically stable behaviors, and (c) are more flexible than
traditional stable dynamical system-based policies. ANDPs are fully
differentiable, flexible generic-policies that can be used in imitation
learning setups while ensuring asymptotic stability. In this paper, we explore
the flexibility and capacity of ANDPs in several imitation learning tasks
including experiments with image observations. The results show that ANDPs
combine the benefits of both neural network-based and dynamical system-based
methods.
- Abstract(参考訳): 最先端のセンサーモデレーター学習アルゴリズムは、しばしば不安定な行動を生み出し、ロボットや環境を傷つけるポリシーを提供する。
従来のロボット学習は、安定性と安全性を解析できる動的システムベースのポリシーに依存している。
しかし、このようなポリシーは柔軟性も汎用性も無く、通常は受容性センサーの状態でのみ機能する。
本研究では,汎用ニューラルネットワークポリシと動的システムベースのポリシのギャップを埋めるとともに,自律型ニューラルネットワークポリシ(ANDP)を導入する。
(a)自律力学系に基づく。
b) 常に漸近的に安定な行動を生成し、
c)は従来の安定な動的システムに基づくポリシーよりも柔軟である。
ANDPは完全に微分可能で柔軟な汎用政治であり、漸近安定性を確保しつつ、模倣学習のセットアップで使用できる。
本稿では,画像観察実験を含む複数の模倣学習課題におけるANDPの柔軟性と能力について検討する。
その結果,ANDPはニューラルネットワークと動的システムに基づく手法の両方の利点を組み合わせていることがわかった。
関連論文リスト
- Learning Deep Dissipative Dynamics [5.862431328401459]
分散性は、安定性と入出力安定性を一般化する力学系にとって重要な指標である。
本稿では,ニューラルネットワークで表現される任意のダイナミクスを散逸型プロジェクションに変換する微分可能プロジェクションを提案する。
本手法は, 訓練された力学系の安定性, 入力出力安定性, エネルギー保存を厳密に保証する。
論文 参考訳(メタデータ) (2024-08-21T09:44:43Z) - Neural Contractive Dynamical Systems [13.046426079291376]
完全自律型ロボットが望ましくない、あるいは潜在的に有害な行動を起こさないためには、安定性の保証が不可欠である。
本稿では,ニューラルアーキテクチャが収縮を保証するニューラル収縮力学系を学習するための新しい手法を提案する。
提案手法は, 現状技術よりも所望の力学を正確に符号化し, 安定性の保証がより少ないことを示す。
論文 参考訳(メタデータ) (2024-01-17T17:18:21Z) - Quantification before Selection: Active Dynamics Preference for Robust
Reinforcement Learning [5.720802072821204]
本稿では,サンプルシステムパラメータの情報量と密度を定量化するActive Dynamics Preference(ADP)を提案する。
トレーニング環境とテスト環境の異なる4つのロボット移動タスクにおいて,我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-09-23T13:59:55Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Structured Policy Representation: Imposing Stability in arbitrarily
conditioned dynamic systems [24.11609722217645]
我々は、ディープニューラルネットワークベースの動的システムの新しいファミリーを提示する。
提示されたダイナミクスはグローバルに安定しており、任意のコンテキストステートでコンディションすることができる。
これらのダイナミクスを構造化ロボットのポリシーとして利用できることを示す。
論文 参考訳(メタデータ) (2020-12-11T10:11:32Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z) - Learning Stable Deep Dynamics Models [91.90131512825504]
状態空間全体にわたって安定することが保証される力学系を学習するためのアプローチを提案する。
このような学習システムは、単純な力学系をモデル化することができ、複雑な力学を学習するために追加の深層生成モデルと組み合わせることができることを示す。
論文 参考訳(メタデータ) (2020-01-17T00:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。