論文の概要: Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods
- arxiv url: http://arxiv.org/abs/2306.14133v1
- Date: Sun, 25 Jun 2023 05:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:30:57.950554
- Title: Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods
- Title(参考訳): メトリック・アウェア・信頼領域手法による確固たるポリシー最適化
- Authors: Jun Song, Niao He, Lijun Ding and Chaoyue Zhao
- Abstract要約: 信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
- 参考スコア(独自算出の注目度): 21.950484108431944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust-region methods based on Kullback-Leibler divergence are pervasively
used to stabilize policy optimization in reinforcement learning. In this paper,
we exploit more flexible metrics and examine two natural extensions of policy
optimization with Wasserstein and Sinkhorn trust regions, namely Wasserstein
policy optimization (WPO) and Sinkhorn policy optimization (SPO). Instead of
restricting the policy to a parametric distribution class, we directly optimize
the policy distribution and derive their closed-form policy updates based on
the Lagrangian duality. Theoretically, we show that WPO guarantees a monotonic
performance improvement, and SPO provably converges to WPO as the entropic
regularizer diminishes. Moreover, we prove that with a decaying Lagrangian
multiplier to the trust region constraint, both methods converge to global
optimality. Experiments across tabular domains, robotic locomotion, and
continuous control tasks further demonstrate the performance improvement of
both approaches, more robustness of WPO to sample insufficiency, and faster
convergence of SPO, over state-of-art policy gradient methods.
- Abstract(参考訳): Kullback-Leibler分散に基づく信頼領域法は、強化学習におけるポリシー最適化の安定化に広く利用されている。
本稿では,より柔軟なメトリクスを活用し,wasserstein と sinkhorn trust region によるポリシー最適化の自然な拡張であるwasserstein policy optimization (wpo) と sinkhorn policy optimization (spo) について検討する。
パラメトリック分布クラスにポリシーを限定する代わりに、政策分布を直接最適化し、ラグランジアン双対性に基づくクローズドフォームのポリシー更新を導出する。
理論的には、WPOは単調性能の向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束する。
さらに,信頼領域制約に対するラグランジアン乗算器の減衰により,どちらの方法も大域的最適性に収束することを示す。
タブ状領域、ロボットの移動、連続制御タスクにわたる実験は、両方のアプローチの性能改善、WPOのサンプル不足に対する堅牢性の向上、および最先端のポリシー勾配法に対するSPOのより高速な収束性をさらに示している。
関連論文リスト
- Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions [5.820284464296154]
信頼地域政策最適化(Trust Region Policy Optimization)は、政策更新を安定化するための一般的なアプローチである。
本稿では,連続状態対応空間のための新しいアルゴリズム,OT-TRPO(Optimal Transport Trust Region Policy Optimization)を提案する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
論文 参考訳(メタデータ) (2022-10-20T10:04:35Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。