論文の概要: Adversarially Regularized Policy Learning Guided by Trajectory
Optimization
- arxiv url: http://arxiv.org/abs/2109.07627v1
- Date: Thu, 16 Sep 2021 00:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 16:28:11.825898
- Title: Adversarially Regularized Policy Learning Guided by Trajectory
Optimization
- Title(参考訳): 軌道最適化による逆正規化政策学習
- Authors: Zhigen Zhao, Simiao Zuo, Tuo Zhao, Ye Zhao
- Abstract要約: 本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
- 参考スコア(独自算出の注目度): 31.122262331980153
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancement in combining trajectory optimization with function
approximation (especially neural networks) shows promise in learning complex
control policies for diverse tasks in robot systems. Despite their great
flexibility, the large neural networks for parameterizing control policies
impose significant challenges. The learned neural control policies are often
overcomplex and non-smooth, which can easily cause unexpected or diverging
robot motions. Therefore, they often yield poor generalization performance in
practice. To address this issue, we propose adVErsarially Regularized pOlicy
learNIng guided by trajeCtory optimizAtion (VERONICA) for learning smooth
control policies. Specifically, our proposed approach controls the smoothness
(local Lipschitz continuity) of the neural control policies by stabilizing the
output control with respect to the worst-case perturbation to the input state.
Our experiments on robot manipulation show that our proposed approach not only
improves the sample efficiency of neural policy learning but also enhances the
robustness of the policy against various types of disturbances, including
sensor noise, environmental uncertainty, and model mismatch.
- Abstract(参考訳): 軌道最適化と関数近似(特にニューラルネットワーク)を組み合わせる最近の進歩は、ロボットシステムにおける多様なタスクに対する複雑な制御ポリシーを学ぶことを約束している。
その柔軟性にもかかわらず、制御ポリシーをパラメータ化するための大きなニューラルネットワークは、大きな課題を課す。
学習された神経制御ポリシーは、しばしば複雑で不機嫌であり、予期せぬ動きやロボットの動きを容易に引き起こす可能性がある。
そのため、実際は一般化性能が劣ることが多い。
この問題に対処するために、スムーズな制御ポリシーを学ぶために、trajeCtory optimizAtion (VERONICA) でガイドされたアドベサリ正規化 pOlicy learNIng を提案する。
具体的には,入力状態に対する最悪の摂動に対して出力制御を安定化させることにより,神経制御方針の滑らかさ(局所リプシッツ連続性)を制御する。
ロボット操作実験により,提案手法はニューラルポリシー学習のサンプル効率を向上するだけでなく,センサノイズ,環境不確実性,モデルミスマッチなど,各種障害に対するポリシーの堅牢性を高めることが示唆された。
関連論文リスト
- Neural Port-Hamiltonian Models for Nonlinear Distributed Control: An Unconstrained Parametrization Approach [0.0]
ニューラルネットワーク(NN)は、優れたパフォーマンスをもたらす制御ポリシのパラメータ化に利用することができる。
NNの小さな入力変更に対する感度は、クローズドループシステムの不安定化のリスクを引き起こす。
これらの問題に対処するために、ポート・ハミルトンシステムのフレームワークを活用して、連続時間分散制御ポリシーを設計する。
提案する分散コントローラの有効性は,非ホロノミック移動ロボットのコンセンサス制御によって実証される。
論文 参考訳(メタデータ) (2024-11-15T10:44:29Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Extremum-Seeking Action Selection for Accelerating Policy Optimization [18.162794442835413]
連続空間の制御のための強化学習は、典型的にはガウス分布のような高エントロピーポリシーを用いて局所的な探索と性能の最適化を推定する。
本稿では,ESC(Extremum-Seeking Control)に基づく適応制御を付加することで,モデルフリーなRL設定におけるアクション選択を改善することを提案する。
本手法は, 各種制御学習環境において, 学習効率を向上させるために, 標準方針最適化において容易に追加することができる。
論文 参考訳(メタデータ) (2024-04-02T02:39:17Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - PFPN: Continuous Control of Physically Simulated Characters using
Particle Filtering Policy Network [0.9137554315375919]
本稿では,粒子に基づく行動政策をガウス政策の代替とみなす枠組みを提案する。
本手法が様々なモーションキャプチャー模倣タスクに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-03-16T00:35:36Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。