論文の概要: CUP: A Conservative Update Policy Algorithm for Safe Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.07565v1
- Date: Tue, 15 Feb 2022 16:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 17:07:35.435037
- Title: CUP: A Conservative Update Policy Algorithm for Safe Reinforcement
Learning
- Title(参考訳): cup: 安全強化学習のための保守的更新ポリシーアルゴリズム
- Authors: Long Yang, Jiaming Ji, Juntao Dai, Yu Zhang, Pengfei Li, Gang Pan
- Abstract要約: 理論的安全性を保証した保守的更新政策を提案する。
我々は、代理関数を一般化優位(GAE)に拡張するための厳密な理論解析を提供する。
安全な制約を設計するためのCUPの有効性を示す実験がある。
- 参考スコア(独自算出の注目度): 14.999515900425305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (RL) is still very challenging since it requires
the agent to consider both return maximization and safe exploration. In this
paper, we propose CUP, a Conservative Update Policy algorithm with a
theoretical safety guarantee. We derive the CUP based on the new proposed
performance bounds and surrogate functions. Although using bounds as surrogate
functions to design safe RL algorithms have appeared in some existing works, we
develop them at least three aspects: (i) We provide a rigorous theoretical
analysis to extend the surrogate functions to generalized advantage estimator
(GAE). GAE significantly reduces variance empirically while maintaining a
tolerable level of bias, which is an efficient step for us to design CUP; (ii)
The proposed bounds are tighter than existing works, i.e., using the proposed
bounds as surrogate functions are better local approximations to the objective
and safety constraints. (iii) The proposed CUP provides a non-convex
implementation via first-order optimizers, which does not depend on any convex
approximation. Finally, extensive experiments show the effectiveness of CUP
where the agent satisfies safe constraints. We have opened the source code of
CUP at https://github.com/RL-boxes/Safe-RL.
- Abstract(参考訳): 安全強化学習(RL)は、戻り値の最大化と安全な探索の両方を考慮する必要があるため、依然として非常に難しい。
本稿では,理論的安全性を保証する保守的更新ポリシーアルゴリズムであるCUPを提案する。
提案した性能バウンダリとサロゲート関数に基づいてCUPを導出する。
安全なRLアルゴリズムを設計するために境界関数を代理関数として使用することは、いくつかの既存の研究に現れてきたが、少なくとも3つの側面を開発する。
i) 一般化された優位推定器(GAE)に代理関数を拡張するための厳密な理論解析を提供する。
GAEは、CUPを設計するための効率的なステップである許容レベルのバイアスを維持しながら、実験的に分散を著しく低減します。
(ii)提案する境界は,提案する境界をサーロゲート関数として用いる方が,目的と安全性の制約に対してより局所的な近似である。
(iii)提案したCUPは,凸近似に依存しない一階最適化器による非凸実装を提供する。
最後に、広範囲な実験により、エージェントが安全な制約を満たすCUPの有効性を示す。
我々はCUPのソースコードをhttps://github.com/RL-boxes/Safe-RLで公開しました。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Constrained Update Projection Approach to Safe Policy Optimization [13.679149984354403]
本稿では,Constrained Update Projectionフレームワークに基づく新しいポリシー最適化手法であるCUPを提案する。
CUPはパフォーマンスバウンダリを統一し、既存のアルゴリズムの理解と解釈性を向上する。
実験は、報酬と安全性の両面でCUPの有効性を示す。
論文 参考訳(メタデータ) (2022-09-15T07:01:42Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Model-Based Actor-Critic with Chance Constraint for Stochastic System [6.600423613245076]
安全かつ非保守的な政策を効率的に学習できるモデルに基づくチャンス制約アクタークリティカル(CCAC)アルゴリズムを提案する。
CCACは、目的関数と安全確率が適応重みと同時に最適化される元のチャンス制約問題を直接解決します。
論文 参考訳(メタデータ) (2020-12-19T15:46:50Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。