論文の概要: Trust-Region-Free Policy Optimization for Stochastic Policies
- arxiv url: http://arxiv.org/abs/2302.07985v1
- Date: Wed, 15 Feb 2023 23:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:39:41.928730
- Title: Trust-Region-Free Policy Optimization for Stochastic Policies
- Title(参考訳): 確率的政策のための信頼地域自由政策最適化
- Authors: Mingfei Sun, Benjamin Ellis, Anuj Mahajan, Sam Devlin, Katja Hofmann,
Shimon Whiteson
- Abstract要約: 本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
- 参考スコア(独自算出の注目度): 60.52463923712565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trust Region Policy Optimization (TRPO) is an iterative method that
simultaneously maximizes a surrogate objective and enforces a trust region
constraint over consecutive policies in each iteration. The combination of the
surrogate objective maximization and the trust region enforcement has been
shown to be crucial to guarantee a monotonic policy improvement. However,
solving a trust-region-constrained optimization problem can be computationally
intensive as it requires many steps of conjugate gradient and a large number of
on-policy samples. In this paper, we show that the trust region constraint over
policies can be safely substituted by a trust-region-free constraint without
compromising the underlying monotonic improvement guarantee. The key idea is to
generalize the surrogate objective used in TRPO in a way that a monotonic
improvement guarantee still emerges as a result of constraining the maximum
advantage-weighted ratio between policies. This new constraint outlines a
conservative mechanism for iterative policy optimization and sheds light on
practical ways to optimize the generalized surrogate objective. We show that
the new constraint can be effectively enforced by being conservative when
optimizing the generalized objective function in practice. We call the
resulting algorithm Trust-REgion-Free Policy Optimization (TREFree) as it is
free of any explicit trust region constraints. Empirical results show that
TREFree outperforms TRPO and Proximal Policy Optimization (PPO) in terms of
policy performance and sample efficiency.
- Abstract(参考訳): 信頼領域ポリシー最適化(英: trust region policy optimization、trpo)は、信頼領域の制約を反復毎に強制する反復的手法である。
代理的目標最大化と信託地域執行の組み合わせは、単調な政策改善を保証するために重要であることが示されている。
しかし、多くの共役勾配と多数のオンラインサンプルを必要とするため、信頼領域制約付き最適化問題の解法は計算集約的である。
本稿では,ポリシーに対する信頼領域制約を,基礎となるモノトニック改善保証を損なうことなく,信頼領域自由制約によって安全に置き換えることができることを示す。
重要なアイデアは、trpoで使用されるサロゲートの目標を、ポリシー間の最大アドバンテージ重み付け比率を制約した結果、依然として単調な改善保証が現れるように一般化することである。
この新たな制約は、反復的な政策最適化のための保守的なメカニズムを概説し、一般化された代理目的を最適化する実践的な方法に光を当てる。
汎用目的関数を実際に最適化する場合、保守的であることで、新しい制約を効果的に実施できることを示す。
信頼領域の明示的な制約から解放されたアルゴリズムを信頼領域自由ポリシー最適化(trefree)と呼ぶ。
実証実験の結果,TREFree は TRPO と PPO を政策性能とサンプル効率で上回っていることがわかった。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Guaranteed Trust Region Optimization via Two-Phase KL Penalization [11.008537121214104]
我々は,KLの罰則の適用だけでは,信頼領域を強制するのに十分であることを示す。
そして、すべてのポリシー更新で信頼領域が強制されることを保証するのに、"修正"フェーズの導入が十分であることを示す。
FixPOと呼ばれる結果のアルゴリズムは、さまざまなポリシーアーキテクチャやアクションスペースをトレーニングすることができます。
論文 参考訳(メタデータ) (2023-12-08T23:29:57Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Feasible Policy Iteration [28.29623882912745]
実装可能なポリシーイテレーションという,間接的に安全なRLフレームワークを提案する。
実現可能な領域が単調に膨張し、最大領域に収束することを保証している。
実験により,提案アルゴリズムは,正確な実現可能な領域で,厳密に安全かつほぼ最適なポリシーを学習することを示した。
論文 参考訳(メタデータ) (2023-04-18T09:18:37Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。