論文の概要: Constrained Update Projection Approach to Safe Policy Optimization
- arxiv url: http://arxiv.org/abs/2209.07089v1
- Date: Thu, 15 Sep 2022 07:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:04:26.309906
- Title: Constrained Update Projection Approach to Safe Policy Optimization
- Title(参考訳): 安全政策最適化のための制約付き更新プロジェクションアプローチ
- Authors: Long Yang, Jiaming Ji, Juntao Dai, Linrui Zhang, Binbin Zhou, Pengfei
Li, Yaodong Yang, Gang Pan
- Abstract要約: 本稿では,Constrained Update Projectionフレームワークに基づく新しいポリシー最適化手法であるCUPを提案する。
CUPはパフォーマンスバウンダリを統一し、既存のアルゴリズムの理解と解釈性を向上する。
実験は、報酬と安全性の両面でCUPの有効性を示す。
- 参考スコア(独自算出の注目度): 13.679149984354403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe reinforcement learning (RL) studies problems where an intelligent agent
has to not only maximize reward but also avoid exploring unsafe areas. In this
study, we propose CUP, a novel policy optimization method based on Constrained
Update Projection framework that enjoys rigorous safety guarantee. Central to
our CUP development is the newly proposed surrogate functions along with the
performance bound. Compared to previous safe RL methods, CUP enjoys the
benefits of 1) CUP generalizes the surrogate functions to generalized advantage
estimator (GAE), leading to strong empirical performance. 2) CUP unifies
performance bounds, providing a better understanding and interpretability for
some existing algorithms; 3) CUP provides a non-convex implementation via only
first-order optimizers, which does not require any strong approximation on the
convexity of the objectives. To validate our CUP method, we compared CUP
against a comprehensive list of safe RL baselines on a wide range of tasks.
Experiments show the effectiveness of CUP both in terms of reward and safety
constraint satisfaction. We have opened the source code of CUP at
https://github.com/RL-boxes/Safe-RL/tree/ main/CUP.
- Abstract(参考訳): 安全強化学習(RL)は、知的エージェントが報酬を最大化するだけでなく、安全でない領域の探索を避ける必要がある問題を研究する。
本研究では,厳格な安全保証を享受するConstrained Update Projectionフレームワークに基づく新しいポリシー最適化手法であるCUPを提案する。
当社のCUP開発の中心は、新たに提案されたサロゲート関数とパフォーマンスバウンドです。
従来の安全RL法と比較して、CUPは利点を享受する
1) CUPは代理関数を一般化し、一般化された優位推定器(GAE)を一般化し、強い経験的性能をもたらす。
2) CUPはパフォーマンスバウンダリを統一し、既存のアルゴリズムの理解と解釈性を向上する。
3) CUPは1次オプティマイザのみによる非凸実装を提供するが, 目的の凸性に対する強い近似は不要である。
CUP法を検証するため,幅広いタスクにおいて安全なRLベースラインの包括的リストと比較した。
報酬と安全制約満足度の観点からCUPの有効性を示す実験を行った。
我々はCUPのソースコードをhttps://github.com/RL-boxes/Safe-RL/tree/ main/CUPで公開しました。
関連論文リスト
- Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning [9.94248417157713]
機能近似に基づく安全オフライン強化学習(RL)のための新しいアルゴリズムであるWSACを提案する。
WSACは2人プレイのStackelbergゲームとして設計され、洗練された目的関数を最適化する。
論文 参考訳(メタデータ) (2024-01-01T01:44:58Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - CUP: A Conservative Update Policy Algorithm for Safe Reinforcement
Learning [14.999515900425305]
理論的安全性を保証した保守的更新政策を提案する。
我々は、代理関数を一般化優位(GAE)に拡張するための厳密な理論解析を提供する。
安全な制約を設計するためのCUPの有効性を示す実験がある。
論文 参考訳(メタデータ) (2022-02-15T16:49:28Z) - Safe Policy Optimization with Local Generalized Linear Function
Approximations [17.84511819022308]
既存の安全探査法は、規則性の前提で安全を保証した。
本研究では,センサによって得られる局所的特徴と環境報酬・安全との関係を学習しながら,エージェントのポリシーを最適化する新しいアルゴリズムであるSPO-LFを提案する。
提案アルゴリズムは,1) サンプルの複雑さと計算コストの点で効率が良く,2) 理論的保証のある従来の安全RL法よりも大規模な問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T00:47:50Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Model-Based Actor-Critic with Chance Constraint for Stochastic System [6.600423613245076]
安全かつ非保守的な政策を効率的に学習できるモデルに基づくチャンス制約アクタークリティカル(CCAC)アルゴリズムを提案する。
CCACは、目的関数と安全確率が適応重みと同時に最適化される元のチャンス制約問題を直接解決します。
論文 参考訳(メタデータ) (2020-12-19T15:46:50Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。