論文の概要: Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions
- arxiv url: http://arxiv.org/abs/2210.11137v1
- Date: Thu, 20 Oct 2022 10:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:04:43.816590
- Title: Trust Region Policy Optimization with Optimal Transport Discrepancies:
Duality and Algorithm for Continuous Actions
- Title(参考訳): 最適輸送格差を考慮した信頼領域政策最適化--双対性と連続行動のアルゴリズム
- Authors: Antonio Terpin, Nicolas Lanzetti, Batuhan Yardim, Florian D\"orfler,
Giorgia Ramponi
- Abstract要約: 信頼地域政策最適化(Trust Region Policy Optimization)は、政策更新を安定化するための一般的なアプローチである。
本稿では,連続状態対応空間のための新しいアルゴリズム,OT-TRPO(Optimal Transport Trust Region Policy Optimization)を提案する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
- 参考スコア(独自算出の注目度): 5.820284464296154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy Optimization (PO) algorithms have been proven particularly suited to
handle the high-dimensionality of real-world continuous control tasks. In this
context, Trust Region Policy Optimization methods represent a popular approach
to stabilize the policy updates. These usually rely on the Kullback-Leibler
(KL) divergence to limit the change in the policy. The Wasserstein distance
represents a natural alternative, in place of the KL divergence, to define
trust regions or to regularize the objective function. However,
state-of-the-art works either resort to its approximations or do not provide an
algorithm for continuous state-action spaces, reducing the applicability of the
method. In this paper, we explore optimal transport discrepancies (which
include the Wasserstein distance) to define trust regions, and we propose a
novel algorithm - Optimal Transport Trust Region Policy Optimization (OT-TRPO)
- for continuous state-action spaces. We circumvent the infinite-dimensional
optimization problem for PO by providing a one-dimensional dual reformulation
for which strong duality holds. We then analytically derive the optimal policy
update given the solution of the dual problem. This way, we bypass the
computation of optimal transport costs and of optimal transport maps, which we
implicitly characterize by solving the dual formulation. Finally, we provide an
experimental evaluation of our approach across various control tasks. Our
results show that optimal transport discrepancies can offer an advantage over
state-of-the-art approaches.
- Abstract(参考訳): ポリシー最適化(PO)アルゴリズムは、実世界の連続制御タスクの高次元性を扱うのに特に適していることが証明されている。
この文脈では、信頼地域政策最適化手法は政策更新を安定化するための一般的なアプローチである。
これらは通常、政策の変更を制限するためにKL(Kullback-Leibler)の分岐に依存する。
ワッサーシュタイン距離は、KL の発散の代わりに、信頼領域を定義したり、目的関数を正則化する自然な選択肢を表す。
しかし、最先端の作業はその近似に頼るか、連続状態作用空間のアルゴリズムを提供しないかのどちらかであり、この方法の適用性が低下する。
本稿では、信頼領域を定義するための最適輸送不一致(ワッサーシュタイン距離を含む)について検討し、連続状態空間に対する最適輸送トラスト地域政策最適化(OT-TRPO)という新しいアルゴリズムを提案する。
強い双対性を持つ一次元双対再構成を提供することにより、POの無限次元最適化問題を回避できる。
次に,双対問題の解を与えられた最適政策更新を解析的に導出する。
このようにして、最適輸送コストと最適輸送マップの計算をバイパスし、二重定式化を解くことで暗黙的に特徴づける。
最後に,様々な制御タスクに対するアプローチを実験的に評価する。
以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Provably Convergent Policy Optimization via Metric-aware Trust Region
Methods [21.950484108431944]
信頼領域法は、強化学習における政策最適化の安定化に広く用いられている。
我々は、より柔軟なメトリクスを活用し、ワッサーシュタインとシンクホーンの信頼領域によるポリシー最適化の2つの自然な拡張について検討する。
WPOは単調な性能向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:41:38Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Distributionally-Constrained Policy Optimization via Unbalanced Optimal
Transport [15.294456568539148]
入居対策の空間における不均衡な最適輸送として政策最適化を策定します。
Bregman発散に基づく汎用RL目標を提案し,Dykstraのアルゴリズムを用いて最適化する。
論文 参考訳(メタデータ) (2021-02-15T23:04:37Z) - Optimistic Distributionally Robust Policy Optimization [2.345728642535161]
Trust Region Policy Optimization (TRPO) と Proximal Policy Optimization (PPO) は、特定のパラメトリック分布クラスにポリシー表現を制限するため、準最適解に収束する傾向にある。
そこで我々は,信頼領域制約最適化問題をパラメータ化せずに解くために,最適分布ロバストポリシ最適化(ODRO)アルゴリズムを開発した。
提案アルゴリズムは, TRPOとPPOを改良し, 学習安定性を確保しつつ, サンプル効率の向上と最終方針の性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-14T06:36:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。