論文の概要: Quantification before Selection: Active Dynamics Preference for Robust
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.11596v3
- Date: Sat, 20 May 2023 06:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:47:11.573479
- Title: Quantification before Selection: Active Dynamics Preference for Robust
Reinforcement Learning
- Title(参考訳): 選択前の定量化:ロバスト強化学習のためのアクティブダイナミクス選好
- Authors: Kang Xu, Yan Ma, Wei Li
- Abstract要約: 本稿では,サンプルシステムパラメータの情報量と密度を定量化するActive Dynamics Preference(ADP)を提案する。
トレーニング環境とテスト環境の異なる4つのロボット移動タスクにおいて,我々のアプローチを検証した。
- 参考スコア(独自算出の注目度): 5.720802072821204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a robust policy is critical for policy deployment in real-world
systems or dealing with unknown dynamics mismatch in different dynamic systems.
Domain Randomization~(DR) is a simple and elegant approach that trains a
conservative policy to counter different dynamic systems without expert
knowledge about the target system parameters. However, existing works reveal
that the policy trained through DR tends to be over-conservative and performs
poorly in target domains. Our key insight is that dynamic systems with
different parameters provide different levels of difficulty for the policy, and
the difficulty of behaving well in a system is constantly changing due to the
evolution of the policy. If we can actively sample the systems with proper
difficulty for the policy on the fly, it will stabilize the training process
and prevent the policy from becoming over-conservative or over-optimistic. To
operationalize this idea, we introduce Active Dynamics Preference~(ADP), which
quantifies the informativeness and density of sampled system parameters. ADP
actively selects system parameters with high informativeness and low density.
We validate our approach in four robotic locomotion tasks with various
discrepancies between the training and testing environments. Extensive results
demonstrate that our approach has superior robustness for system inconsistency
compared to several baselines.
- Abstract(参考訳): 堅牢なポリシーのトレーニングは、現実世界のシステムにおけるポリシーの展開や、異なる動的システムにおける未知のダイナミックスミスマッチを扱う上で重要である。
ドメインランダム化~(DR)は、ターゲットのシステムパラメータに関する専門知識なしで、異なる動的システムに対抗するために保守的なポリシーを訓練するシンプルでエレガントなアプローチです。
しかし、既存の研究によると、DRによって訓練されたポリシーは過保守であり、ターゲットドメインでは不十分である。
私たちのキーとなる洞察は、異なるパラメータを持つ動的システムはポリシーに異なるレベルの困難をもたらし、システム内でうまく振る舞うことの難しさはポリシーの進化によって常に変化しているということです。
政策の適切な困難さで積極的にシステムをサンプル化できれば、トレーニングプロセスは安定し、過保守的あるいは過最適化的になるのを防ぐことができる。
このアイデアを運用するには,サンプルシステムパラメータの情報と密度を定量化するactive dynamics preference~(adp)を導入する。
ADPは情報度と密度の低いシステムパラメータを積極的に選択する。
トレーニング環境とテスト環境の異なる4つのロボットロコモーションタスクにおいて,我々のアプローチを検証する。
広範な結果から,本手法は複数のベースラインと比較して,システム不整合に対して優れたロバスト性を示す。
関連論文リスト
- Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - End-to-End Stable Imitation Learning via Autonomous Neural Dynamic
Policies [2.7941001040182765]
State-of-the-the-art Sensorimotor Learningアルゴリズムは、不安定な振る舞いをしばしば生成できるポリシーを提供する。
従来のロボット学習は、安定性と安全性を解析できる動的システムベースのポリシーに依存している。
本研究では,汎用ニューラルネットワークポリシと動的システムベースのポリシのギャップを埋める。
論文 参考訳(メタデータ) (2023-05-22T10:10:23Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Non-Parametric Stochastic Policy Gradient with Strategic Retreat for
Non-Stationary Environment [1.5229257192293197]
非パラメトリックな最適制御ポリシのシーケンスを学習するための体系的な方法論を提案する。
本手法はDDPG法とTD3法を学習性能の点で大きな差で上回っている。
論文 参考訳(メタデータ) (2022-03-24T21:41:13Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Learning a subspace of policies for online adaptation in Reinforcement
Learning [14.7945053644125]
制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
訓練条件のバリエーションによく適合するRL法を開発する必要がある。
本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
論文 参考訳(メタデータ) (2021-10-11T11:43:34Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。