論文の概要: Feasible Policy Iteration
- arxiv url: http://arxiv.org/abs/2304.08845v1
- Date: Tue, 18 Apr 2023 09:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:27:15.405303
- Title: Feasible Policy Iteration
- Title(参考訳): 可能な政策イテレーション
- Authors: Yujie Yang, Zhilong Zheng, Shengbo Eben Li
- Abstract要約: ファシブルポリシー反復 (FPI) と呼ばれる$textitindirect$safe RL法を提案する。
FPIは、最終方針の実行可能な領域を反復的に使用し、現在の方針を制約する。
古典的な制御タスクとSafety Gymの実験により、我々のアルゴリズムはベースラインよりも低い制約違反と同等または高いパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 6.8080936803807734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safe reinforcement learning (RL) aims to solve an optimal control problem
under safety constraints. Existing $\textit{direct}$ safe RL methods use the
original constraint throughout the learning process. They either lack
theoretical guarantees of the policy during iteration or suffer from
infeasibility problems. To address this issue, we propose an
$\textit{indirect}$ safe RL method called feasible policy iteration (FPI) that
iteratively uses the feasible region of the last policy to constrain the
current policy. The feasible region is represented by a feasibility function
called constraint decay function (CDF). The core of FPI is a region-wise policy
update rule called feasible policy improvement, which maximizes the return
under the constraint of the CDF inside the feasible region and minimizes the
CDF outside the feasible region. This update rule is always feasible and
ensures that the feasible region monotonically expands and the state-value
function monotonically increases inside the feasible region. Using the feasible
Bellman equation, we prove that FPI converges to the maximum feasible region
and the optimal state-value function. Experiments on classic control tasks and
Safety Gym show that our algorithms achieve lower constraint violations and
comparable or higher performance than the baselines.
- Abstract(参考訳): 安全強化学習(RL)は、安全制約の下で最適な制御問題を解くことを目的としている。
既存の$\textit{direct}$safe RLメソッドは学習プロセスを通して元の制約を使用する。
それらは反復中にポリシーの理論的保証を欠くか、実現不可能な問題に苦しむかのどちらかである。
この問題に対処するために、FPI(Fasible Policy iteration)と呼ばれる安全性の高いRL法を提案し、現行のポリシーを制約するために、最終ポリシーの実行可能な領域を反復的に利用する。
実現可能な領域は、制約崩壊関数(CDF)と呼ばれる実現可能性関数で表される。
FPIの中核は、実行可能政策改善と呼ばれる地域政策更新ルールであり、実行可能領域内のCDFの制約の下でのリターンを最大化し、実行可能領域外のCDFを最小化する。
この更新規則は常に実現可能であり、実行可能領域が単調に拡大し、状態値関数が実現可能領域内で単調に増加することを保証する。
実現可能なベルマン方程式を用いて、fpi が最大実現可能領域と最適状態値関数に収束することを示す。
古典的な制御タスクとSafety Gymの実験により、我々のアルゴリズムはベースラインよりも低い制約違反と同等または高いパフォーマンスを達成することが示された。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。