論文の概要: Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm
- arxiv url: http://arxiv.org/abs/2210.07573v1
- Date: Fri, 14 Oct 2022 06:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:19:49.239406
- Title: Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm
- Title(参考訳): 制約付き近位政策最適化アルゴリズムによるモデルベース安全深層強化学習
- Authors: Ashish Kumar Jayant, Shalabh Bhatnagar
- Abstract要約: オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
- 参考スコア(独自算出の注目度): 4.128216503196621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: During initial iterations of training in most Reinforcement Learning (RL)
algorithms, agents perform a significant number of random exploratory steps. In
the real world, this can limit the practicality of these algorithms as it can
lead to potentially dangerous behavior. Hence safe exploration is a critical
issue in applying RL algorithms in the real world. This problem has been
recently well studied under the Constrained Markov Decision Process (CMDP)
Framework, where in addition to single-stage rewards, an agent receives
single-stage costs or penalties as well depending on the state transitions. The
prescribed cost functions are responsible for mapping undesirable behavior at
any given time-step to a scalar value. The goal then is to find a feasible
policy that maximizes reward returns while constraining the cost returns to be
below a prescribed threshold during training as well as deployment.
We propose an On-policy Model-based Safe Deep RL algorithm in which we learn
the transition dynamics of the environment in an online manner as well as find
a feasible optimal policy using the Lagrangian Relaxation-based Proximal Policy
Optimization. We use an ensemble of neural networks with different
initializations to tackle epistemic and aleatoric uncertainty issues faced
during environment model learning. We compare our approach with relevant
model-free and model-based approaches in Constrained RL using the challenging
Safe Reinforcement Learning benchmark - the Open AI Safety Gym. We demonstrate
that our algorithm is more sample efficient and results in lower cumulative
hazard violations as compared to constrained model-free approaches. Further,
our approach shows better reward performance than other constrained model-based
approaches in the literature.
- Abstract(参考訳): ほとんどの強化学習(RL)アルゴリズムでトレーニングの初期イテレーションの間、エージェントはかなりの数のランダムな探索ステップを実行する。
現実の世界では、これはこれらのアルゴリズムの実用性を制限し、潜在的に危険な行動を引き起こす可能性がある。
したがって、安全な探索はRLアルゴリズムを現実世界に適用する上で重要な問題である。
この問題は最近、制約付きマルコフ決定プロセス(CMDP)フレームワークの下でよく研究されており、単一のステージ報酬に加えて、エージェントは状態遷移に応じて単一ステージのコストや罰則を受け取る。
所定のコスト関数は、任意のタイミングで望ましくない振る舞いをスカラー値にマッピングする責任を負う。
目標は、トレーニングとデプロイメントの間、コストリターンを所定のしきい値以下に制限しながら、報酬リターンを最大化する実行可能なポリシーを見つけることです。
本稿では,オンライン上で環境の遷移ダイナミクスを学習し,ラグランジアン緩和に基づく近位政策最適化を用いて実現可能な最適政策を求める,オンポリシーモデルに基づく安全深層rlアルゴリズムを提案する。
我々は,環境モデル学習中に直面した認識論的・弁別的不確実性問題に取り組むために,異なる初期化を持つニューラルネットワークのアンサンブルを用いる。
我々は,open ai safety gymである challenge safe reinforcement learning benchmark を用いて,制約付きrlにおけるモデルフリーおよびモデルベースアプローチと比較した。
我々は,本アルゴリズムがよりサンプリング効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
さらに,本手法は,文献中の他の制約付きモデルベースアプローチよりも優れた報酬性能を示す。
関連論文リスト
- Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。