論文の概要: Model-Based Actor-Critic with Chance Constraint for Stochastic System
- arxiv url: http://arxiv.org/abs/2012.10716v2
- Date: Tue, 16 Mar 2021 04:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 11:14:59.071663
- Title: Model-Based Actor-Critic with Chance Constraint for Stochastic System
- Title(参考訳): 確率系に対するチャンス制約付きモデルベースアクタ臨界
- Authors: Baiyu Peng, Yao Mu, Yang Guan, Shengbo Eben Li, Yuming Yin, Jianyu
Chen
- Abstract要約: 安全かつ非保守的な政策を効率的に学習できるモデルに基づくチャンス制約アクタークリティカル(CCAC)アルゴリズムを提案する。
CCACは、目的関数と安全確率が適応重みと同時に最適化される元のチャンス制約問題を直接解決します。
- 参考スコア(独自算出の注目度): 6.600423613245076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is essential for reinforcement learning (RL) applied in real-world
situations. Chance constraints are suitable to represent the safety
requirements in stochastic systems. Previous chance-constrained RL methods
usually have a low convergence rate, or only learn a conservative policy. In
this paper, we propose a model-based chance constrained actor-critic (CCAC)
algorithm which can efficiently learn a safe and non-conservative policy.
Different from existing methods that optimize a conservative lower bound, CCAC
directly solves the original chance constrained problems, where the objective
function and safe probability is simultaneously optimized with adaptive
weights. In order to improve the convergence rate, CCAC utilizes the gradient
of dynamic model to accelerate policy optimization. The effectiveness of CCAC
is demonstrated by a stochastic car-following task. Experiments indicate that
compared with previous RL methods, CCAC improves the performance while
guaranteeing safety, with a five times faster convergence rate. It also has 100
times higher online computation efficiency than traditional safety techniques
such as stochastic model predictive control.
- Abstract(参考訳): 実環境に適用される強化学習(RL)には安全性が不可欠である。
条件制約は確率システムの安全性要件を表現するのに適している。
従来の確率制約付きRL法は、通常は収束率が低いか、保守的な政策しか学ばない。
本稿では,安全かつ非保守的なポリシーを効率的に学習できるモデルベースのアクター制約付きアクタークリティカル(CCAC)アルゴリズムを提案する。
保守的な下界を最適化する既存の方法とは異なり、CCACは、目的関数と安全な確率を適応重みで同時に最適化する元の確率制約問題を直接解決する。
収束率を改善するため、CCACは動的モデルの勾配を利用して政策最適化を加速する。
CCACの有効性は確率的な車追従作業によって示される。
実験の結果, CCACは従来のRL法と比較して, 5倍の収束率で安全性を確保しながら性能を向上することがわかった。
また、確率モデル予測制御のような従来の安全技術よりも100倍高いオンライン計算効率を持つ。
関連論文リスト
- SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe and Efficient Reinforcement Learning Using
Disturbance-Observer-Based Control Barrier Functions [5.571154223075409]
本稿では、外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的な強化学習(RL)手法を提案する。
本手法はモデル学習を伴わず,DOBを用いて不確実性のポイントワイド値を正確に推定し,安全行動を生成するための頑健なCBF条件に組み込む。
提案手法は,CBFとガウス過程に基づくモデル学習を用いて,最先端の安全なRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T18:49:53Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - CUP: A Conservative Update Policy Algorithm for Safe Reinforcement
Learning [14.999515900425305]
理論的安全性を保証した保守的更新政策を提案する。
我々は、代理関数を一般化優位(GAE)に拡張するための厳密な理論解析を提供する。
安全な制約を設計するためのCUPの有効性を示す実験がある。
論文 参考訳(メタデータ) (2022-02-15T16:49:28Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。