論文の概要: Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control
- arxiv url: http://arxiv.org/abs/2106.02249v1
- Date: Fri, 4 Jun 2021 04:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 14:47:48.145558
- Title: Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control
- Title(参考訳): $\mathcal{l}_1$適応制御による強化学習ポリシーの堅牢化
- Authors: Yikun Cheng, Pan Zhao, Manan Gandhi, Bo Li, Evangelos Theodorou, Naira
Hovakimyan
- Abstract要約: 強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 7.025818894763949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A reinforcement learning (RL) policy trained in a nominal environment could
fail in a new/perturbed environment due to the existence of dynamic variations.
Existing robust methods try to obtain a fixed policy for all envisioned dynamic
variation scenarios through robust or adversarial training. These methods could
lead to conservative performance due to emphasis on the worst case, and often
involve tedious modifications to the training environment. We propose an
approach to robustifying a pre-trained non-robust RL policy with
$\mathcal{L}_1$ adaptive control. Leveraging the capability of an
$\mathcal{L}_1$ control law in the fast estimation of and active compensation
for dynamic variations, our approach can significantly improve the robustness
of an RL policy trained in a standard (i.e., non-robust) way, either in a
simulator or in the real world. Numerical experiments are provided to validate
the efficacy of the proposed approach.
- Abstract(参考訳): 名目環境で訓練された強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境で失敗する可能性がある。
既存のロバストな手法では、ロバストあるいは逆のトレーニングを通じて、想定されたすべての動的変動シナリオに対する固定ポリシーを取得しようとする。
これらの手法は、最悪のケースに重点を置いて保守的なパフォーマンスをもたらす可能性があり、しばしばトレーニング環境への面倒な変更を伴う。
本稿では, 適応制御を$\mathcal{L}_1$とすることで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
動的変動の高速な推定と能動補償における$\mathcal{L}_1$制御則の能力を生かして、我々の手法は、シミュレータや実世界で訓練された標準(非ロバストな)方法で訓練されたRLポリシーの堅牢性を大幅に向上させることができる。
提案手法の有効性を検証するための数値実験を行った。
関連論文リスト
- Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - UDUC: An Uncertainty-driven Approach for Learning-based Robust Control [9.76247882232402]
確率的アンサンブル(PE)モデルは、システムの力学をモデル化するための有望なアプローチを提供する。
PEモデルはモード崩壊の影響を受けやすいため、トレーニングセットと若干異なる環境に直面した場合、非破壊的な制御が生じる。
我々は、PEモデルをトレーニングするための代替目的として、$textbfu$ncertainty-$textbfd$riven rob$textbfu$st $textbfc$ontrol (UDUC)損失を導入する。
論文 参考訳(メタデータ) (2024-05-04T07:48:59Z) - Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation [42.66792060626531]
既存のロバストで適応的なコントローラは、オンライン上の重い計算を犠牲にして、素晴らしいパフォーマンスを達成することができる。
我々は、MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学習する能力を拡張した。
論文 参考訳(メタデータ) (2023-03-28T02:22:47Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。