論文の概要: Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control
- arxiv url: http://arxiv.org/abs/2106.02249v1
- Date: Fri, 4 Jun 2021 04:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 14:47:48.145558
- Title: Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control
- Title(参考訳): $\mathcal{l}_1$適応制御による強化学習ポリシーの堅牢化
- Authors: Yikun Cheng, Pan Zhao, Manan Gandhi, Bo Li, Evangelos Theodorou, Naira
Hovakimyan
- Abstract要約: 強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 7.025818894763949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reinforcement learning (RL) policy trained in a nominal environment could
fail in a new/perturbed environment due to the existence of dynamic variations.
Existing robust methods try to obtain a fixed policy for all envisioned dynamic
variation scenarios through robust or adversarial training. These methods could
lead to conservative performance due to emphasis on the worst case, and often
involve tedious modifications to the training environment. We propose an
approach to robustifying a pre-trained non-robust RL policy with
$\mathcal{L}_1$ adaptive control. Leveraging the capability of an
$\mathcal{L}_1$ control law in the fast estimation of and active compensation
for dynamic variations, our approach can significantly improve the robustness
of an RL policy trained in a standard (i.e., non-robust) way, either in a
simulator or in the real world. Numerical experiments are provided to validate
the efficacy of the proposed approach.
- Abstract(参考訳): 名目環境で訓練された強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境で失敗する可能性がある。
既存のロバストな手法では、ロバストあるいは逆のトレーニングを通じて、想定されたすべての動的変動シナリオに対する固定ポリシーを取得しようとする。
これらの手法は、最悪のケースに重点を置いて保守的なパフォーマンスをもたらす可能性があり、しばしばトレーニング環境への面倒な変更を伴う。
本稿では, 適応制御を$\mathcal{L}_1$とすることで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
動的変動の高速な推定と能動補償における$\mathcal{L}_1$制御則の能力を生かして、我々の手法は、シミュレータや実世界で訓練された標準(非ロバストな)方法で訓練されたRLポリシーの堅牢性を大幅に向上させることができる。
提案手法の有効性を検証するための数値実験を行った。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation [42.66792060626531]
既存のロバストで適応的なコントローラは、オンライン上の重い計算を犠牲にして、素晴らしいパフォーマンスを達成することができる。
我々は、MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学習する能力を拡張した。
論文 参考訳(メタデータ) (2023-03-28T02:22:47Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。