論文の概要: Wasserstein Proximal Policy Gradient
- arxiv url: http://arxiv.org/abs/2603.02576v1
- Date: Tue, 03 Mar 2026 03:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.627137
- Title: Wasserstein Proximal Policy Gradient
- Title(参考訳): ワッサーシュタイン近似政策勾配
- Authors: Zhaoyu Zhu, Shuhan Zhang, Rui Gao, Shuang Li,
- Abstract要約: We study policy gradient method for continuous-action, entropy-regularized learning through the lens of Wasserstein geometry。
我々はWPPGによって実装されたヒートステップと最適なトランスポート更新を交互に行う演算子分割方式によりWWPG(Wsserstein Proximal Policy Gradient)を導出する。
我々はWPPGの線形収束率を確立し、正確なポリシー評価と制御された近似誤差によるアクター・クリティカルな実装の両方をカバーした。
- 参考スコア(独自算出の注目度): 10.574676421687718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study policy gradient methods for continuous-action, entropy-regularized reinforcement learning through the lens of Wasserstein geometry. Starting from a Wasserstein proximal update, we derive Wasserstein Proximal Policy Gradient (WPPG) via an operator-splitting scheme that alternates an optimal transport update with a heat step implemented by Gaussian convolution. This formulation avoids evaluating the policy's log density or its gradient, making the method directly applicable to expressive implicit stochastic policies specified as pushforward maps. We establish a global linear convergence rate for WPPG, covering both exact policy evaluation and actor-critic implementations with controlled approximation error. Empirically, WPPG is simple to implement and attains competitive performance on standard continuous-control benchmarks.
- Abstract(参考訳): We study policy gradient method for continuous-action, entropy-regularized reinforcement learning through the lens of Wasserstein geometry。
ワッサーシュタイン近位更新から、ガウスの畳み込みによって実装された熱ステップと最適なトランスポート更新を交換する演算子分割方式により、ワッサーシュタイン近位ポリシー勾配(WPPG)を導出する。
この定式化は、ポリシーのログ密度または勾配を評価することを避け、プッシュフォワードマップとして指定された明示的な暗黙の確率的ポリシーに直接適用する。
我々はWPPGの線形収束率を確立し、正確なポリシー評価と制御された近似誤差によるアクター・クリティカルな実装の両方をカバーした。
経験的に、WPPGは実装が簡単で、標準の継続的制御ベンチマーク上での競合性能を実現する。
関連論文リスト
- Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - Wasserstein Policy Optimization [15.269409777313662]
Wasserstein Policy Optimization (WPO) は連続的な行動空間における強化学習のためのアクタークリティカルなアルゴリズムである。
本稿では、DeepMind Control Suiteと、最先端の連続制御法と好適に比較した磁気閉じ込めタスクについて述べる。
論文 参考訳(メタデータ) (2025-05-01T17:07:01Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Stochastic Recursive Momentum for Policy Gradient Methods [28.277961340108313]
STOchastic Recursive Momentum for Policy Gradient (Storm-PG) という新しいアルゴリズムを提案する。
Storm-PG は STORM-PG のサンプルバウンドで、ポリシー勾配アルゴリズムの最もよく知られた収束率と一致する。
数値実験では、比較ポリシー勾配アルゴリズムよりもアルゴリズムの方が優れていることが示されている。
論文 参考訳(メタデータ) (2020-03-09T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。