論文の概要: Feasible Policy Iteration
- arxiv url: http://arxiv.org/abs/2304.08845v2
- Date: Sun, 28 Jan 2024 10:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:53:19.223366
- Title: Feasible Policy Iteration
- Title(参考訳): 可能な政策イテレーション
- Authors: Yujie Yang, Zhilong Zheng, Shengbo Eben Li, Jingliang Duan, Jingjing
Liu, Xianyuan Zhan, Ya-Qin Zhang
- Abstract要約: 実装可能なポリシーイテレーションという,間接的に安全なRLフレームワークを提案する。
実現可能な領域が単調に膨張し、最大領域に収束することを保証している。
実験により,提案アルゴリズムは,正確な実現可能な領域で,厳密に安全かつほぼ最適なポリシーを学習することを示した。
- 参考スコア(独自算出の注目度): 28.29623882912745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) aims to find the optimal policy and its
feasible region in a constrained optimal control problem (OCP). Ensuring
feasibility and optimality simultaneously has been a major challenge. Existing
methods either attempt to solve OCPs directly with constrained optimization
algorithms, leading to unstable training processes and unsatisfactory
feasibility, or restrict policies in overly small feasible regions, resulting
in excessive conservativeness with sacrificed optimality. To address this
challenge, we propose an indirect safe RL framework called feasible policy
iteration, which guarantees that the feasible region monotonically expands and
converges to the maximum one, and the state-value function monotonically
improves and converges to the optimal one. We achieve this by designing a
policy update principle called region-wise policy improvement, which maximizes
the state-value function under the constraint of the constraint decay function
(CDF) inside the feasible region and minimizes the CDF outside the feasible
region simultaneously. This update scheme ensures that the state-value function
monotonically increases state-wise in the feasible region and the CDF
monotonically decreases state-wise in the entire state space. We prove that the
CDF converges to the solution of the risky Bellman equation while the
state-value function converges to the solution of the feasible Bellman
equation. The former represents the maximum feasible region and the latter
manifests the optimal state-value function. Experiments show that our algorithm
learns strictly safe and near-optimal policies with accurate feasible regions
on classic control tasks. It also achieves fewer constraint violations with
performance better than (or comparable to) baselines on Safety Gym.
- Abstract(参考訳): 安全強化学習(RL)は、制約付き最適制御問題(OCP)において最適方針とその実現可能な領域を見つけることを目的としている。
実現可能性と最適性を同時に確保することが大きな課題である。
既存の方法は、制約された最適化アルゴリズムでOCPを直接解決しようとするか、不安定なトレーニングプロセスと満足できない実現可能性をもたらすか、過度に小さな実行可能領域のポリシーを制限するかのいずれかで、過度の保守性を犠牲にして最適性を犠牲にする。
この課題に対処するため,本論文では,実現可能な領域が単調に拡張して最大値に収束し,状態値関数が単調に改善し,最適値に収束することを保証する,ファシブルポリシー反復と呼ばれる間接安全RLフレームワークを提案する。
我々は、実現可能領域内の制約減衰関数(cdf)の制約の下で状態値関数を最大化し、実行可能領域外のcdfを同時に最小化する、領域毎のポリシー改善というポリシー更新原則を考案する。
この更新方式により、状態値関数は実現可能な領域における状態ワイドを単調に増加させ、CDFは状態空間全体の状態ワイドを単調に減少させる。
我々はCDFが危険ベルマン方程式の解に収束するのに対し、状態値関数は実現可能なベルマン方程式の解に収束することを示す。
前者は最大実現可能な領域を表し、後者は最適状態値関数を示す。
実験の結果,従来の制御タスクにおいて,精度の高い領域で,安全でほぼ最適なポリシを学習できることが確認された。
また、Safety Gymのベースライン(あるいは同等の)よりもパフォーマンスが向上した制約違反も少ない。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。