論文の概要: Constrained Variational Policy Optimization for Safe Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.11927v1
- Date: Fri, 28 Jan 2022 04:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:49:14.894861
- Title: Constrained Variational Policy Optimization for Safe Reinforcement
Learning
- Title(参考訳): 安全強化学習のための制約付き変分政策最適化
- Authors: Zuxin Liu, Zhepeng Cen, Vladislav Isenbaev, Wei Liu, Zhiwei Steven Wu,
Bo Li, Ding Zhao
- Abstract要約: 安全強化学習は、安全クリティカルなアプリケーションにデプロイする前に、一定の制約を満たすポリシーを学ぶことを目的としている。
主要な制約付き最適化フレームワークとしての原始双対は不安定な問題に悩まされ、最適性の保証が欠如している。
本稿では,新しい確率的推論の観点から問題を克服し,安全政策を学習するための期待最大化方式を提案する。
- 参考スコア(独自算出の注目度): 40.38842532850959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) aims to learn policies that satisfy certain
constraints before deploying to safety-critical applications. Primal-dual as a
prevalent constrained optimization framework suffers from instability issues
and lacks optimality guarantees. This paper overcomes the issues from a novel
probabilistic inference perspective and proposes an Expectation-Maximization
style approach to learn safe policy. We show that the safe RL problem can be
decomposed to 1) a convex optimization phase with a non-parametric variational
distribution and 2) a supervised learning phase. We show the unique advantages
of constrained variational policy optimization by proving its optimality and
policy improvement stability. A wide range of experiments on continuous robotic
tasks show that the proposed method achieves significantly better performance
in terms of constraint satisfaction and sample efficiency than primal-dual
baselines.
- Abstract(参考訳): 安全強化学習(RL)は、安全クリティカルなアプリケーションにデプロイする前に、一定の制約を満たすポリシーを学ぶことを目的としている。
一般的な制約付き最適化フレームワークであるprimal-dualは不安定な問題に苦しんでおり、最適性の保証が欠けている。
本稿では,新しい確率的推論の観点から問題を克服し,安全政策を学習するための期待最大化方式を提案する。
安全なRL問題は分解可能であることを示す。
1)非パラメトリック変分分布をもつ凸最適化位相と
2)教師付き学習段階。
最適性と政策改善の安定性を証明し,制約付き変動政策最適化の独特な利点を示す。
連続ロボットタスクに関する幅広い実験により,本手法は本手法よりも制約満足度とサンプル効率の点で有意に優れた性能が得られることが示された。
関連論文リスト
- Optimization Solution Functions as Deterministic Policies for Offline Reinforcement Learning [7.07623669995408]
本稿では,最適化の最適値に対する決定論的ポリシー(アクター)および単調関数として最適化解関数を用いる暗黙的アクター批判(iAC)フレームワークを提案する。
学習ポリシーは指数的減衰感度(EDS)特性を介して学習したアクターパラメータの準最適性に頑健であることを示す。
提案手法を実世界の2つのアプリケーションで検証し, 最先端(SOTA)オフラインRL法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-08-27T19:04:32Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning [33.988698754176646]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。
実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。
これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文 参考訳(メタデータ) (2023-10-05T17:39:02Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。