論文の概要: Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm
- arxiv url: http://arxiv.org/abs/2210.07573v1
- Date: Fri, 14 Oct 2022 06:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:19:49.239406
- Title: Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm
- Title(参考訳): 制約付き近位政策最適化アルゴリズムによるモデルベース安全深層強化学習
- Authors: Ashish Kumar Jayant, Shalabh Bhatnagar
- Abstract要約: オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
- 参考スコア(独自算出の注目度): 4.128216503196621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: During initial iterations of training in most Reinforcement Learning (RL)
algorithms, agents perform a significant number of random exploratory steps. In
the real world, this can limit the practicality of these algorithms as it can
lead to potentially dangerous behavior. Hence safe exploration is a critical
issue in applying RL algorithms in the real world. This problem has been
recently well studied under the Constrained Markov Decision Process (CMDP)
Framework, where in addition to single-stage rewards, an agent receives
single-stage costs or penalties as well depending on the state transitions. The
prescribed cost functions are responsible for mapping undesirable behavior at
any given time-step to a scalar value. The goal then is to find a feasible
policy that maximizes reward returns while constraining the cost returns to be
below a prescribed threshold during training as well as deployment.
We propose an On-policy Model-based Safe Deep RL algorithm in which we learn
the transition dynamics of the environment in an online manner as well as find
a feasible optimal policy using the Lagrangian Relaxation-based Proximal Policy
Optimization. We use an ensemble of neural networks with different
initializations to tackle epistemic and aleatoric uncertainty issues faced
during environment model learning. We compare our approach with relevant
model-free and model-based approaches in Constrained RL using the challenging
Safe Reinforcement Learning benchmark - the Open AI Safety Gym. We demonstrate
that our algorithm is more sample efficient and results in lower cumulative
hazard violations as compared to constrained model-free approaches. Further,
our approach shows better reward performance than other constrained model-based
approaches in the literature.
- Abstract(参考訳): ほとんどの強化学習(RL)アルゴリズムでトレーニングの初期イテレーションの間、エージェントはかなりの数のランダムな探索ステップを実行する。
現実の世界では、これはこれらのアルゴリズムの実用性を制限し、潜在的に危険な行動を引き起こす可能性がある。
したがって、安全な探索はRLアルゴリズムを現実世界に適用する上で重要な問題である。
この問題は最近、制約付きマルコフ決定プロセス(CMDP)フレームワークの下でよく研究されており、単一のステージ報酬に加えて、エージェントは状態遷移に応じて単一ステージのコストや罰則を受け取る。
所定のコスト関数は、任意のタイミングで望ましくない振る舞いをスカラー値にマッピングする責任を負う。
目標は、トレーニングとデプロイメントの間、コストリターンを所定のしきい値以下に制限しながら、報酬リターンを最大化する実行可能なポリシーを見つけることです。
本稿では,オンライン上で環境の遷移ダイナミクスを学習し,ラグランジアン緩和に基づく近位政策最適化を用いて実現可能な最適政策を求める,オンポリシーモデルに基づく安全深層rlアルゴリズムを提案する。
我々は,環境モデル学習中に直面した認識論的・弁別的不確実性問題に取り組むために,異なる初期化を持つニューラルネットワークのアンサンブルを用いる。
我々は,open ai safety gymである challenge safe reinforcement learning benchmark を用いて,制約付きrlにおけるモデルフリーおよびモデルベースアプローチと比較した。
我々は,本アルゴリズムがよりサンプリング効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
さらに,本手法は,文献中の他の制約付きモデルベースアプローチよりも優れた報酬性能を示す。
関連論文リスト
- Sublinear Regret for a Class of Continuous-Time Linear--Quadratic Reinforcement Learning Problems [10.404992912881601]
拡散に対する連続時間線形四元数制御(LQ)のクラスに対する強化学習について検討した。
本研究では,モデルパラメータの知識にも,その推定にも依存しないモデルフリーアプローチを適用し,最適なポリシーパラメータを直接学習するためのアクタ批判アルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-07-24T12:26:21Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。