論文の概要: Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces
- arxiv url: http://arxiv.org/abs/2603.10199v1
- Date: Tue, 10 Mar 2026 20:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.672082
- Title: Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces
- Title(参考訳): 連続行動空間における強化学習のためのアクター・アクセラレーション・ポリシー2項平均化
- Authors: Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong,
- Abstract要約: Policy Dual Averaging (PDA)は原則化されたPolicy Mirror Descent (PMD)フレームワークを提供する。
連続状態およびアクション空間におけるPDAの適用は、依然として計算的に困難である。
本稿では、学習ポリシーネットワークを用いて、最適化サブプロブレムの解を近似するテキストタラクタアクセラレーションPDAを提案する。
- 参考スコア(独自算出の注目度): 1.86993075306826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy Dual Averaging (PDA) offers a principled Policy Mirror Descent (PMD) framework that more naturally admits value function approximation than standard PMD, enabling the use of approximate advantage (or Q-) functions while retaining strong convergence guarantees. However, applying PDA in continuous state and action spaces remains computationally challenging, since action selection involves solving an optimization sub-problem at each decision step. In this paper, we propose \textit{actor-accelerated PDA}, which uses a learned policy network to approximate the solution of the optimization sub-problems, yielding faster runtimes while maintaining convergence guarantees. We provide a theoretical analysis that quantifies how actor approximation error impacts the convergence of PDA under suitable assumptions. We then evaluate its performance on several benchmarks in robotics, control, and operations research problems. Actor-accelerated PDA achieves superior performance compared to popular on-policy baselines such as Proximal Policy Optimization (PPO). Overall, our results bridge the gap between the theoretical advantages of PDA and its practical deployment in continuous-action problems with function approximation.
- Abstract(参考訳): PDA(Policy Dual Averaging)は、PMD(Physal Mirror Descent)フレームワークを提供する。PMD(Physal Mirror Descent)フレームワークは、標準的なPMDよりも自然に値関数近似を認め、強い収束保証を維持しながら近似的優位性(あるいはQ-)関数の使用を可能にする。
しかしながら、PDAを連続状態およびアクション空間に適用することは、各決定ステップで最適化サブプロブレムを解くことを含むため、計算的に困難である。
本稿では、学習ポリシーネットワークを用いて最適化サブプロブレムの解を近似し、収束保証を維持しつつ、より高速なランタイムを生成する。
本研究では,アクター近似誤差が適切な仮定の下でのPDAの収束に与える影響を定量的に解析する。
次に、ロボット工学、制御、および運用研究のいくつかのベンチマークにおいて、その性能を評価する。
アクターアクセラレーションのPDAは、PPO(Proximal Policy Optimization)のような、政治上の一般的なベースラインよりも優れたパフォーマンスを達成する。
本研究の結果は,PDAの理論的優位性と,関数近似を用いた連続処理問題への実践的展開とのギャップを埋めるものである。
関連論文リスト
- Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - Proactive Constrained Policy Optimization with Preemptive Penalty [11.93135424276656]
本稿では,制約付き政策最適化のための新しいプリエンプティブ・ペナルティ・メカニズムを提案する。
このメカニズムは、ポリシーが境界に近づくと、障壁要素を目的の関数に統合し、コストを課す。
また,政策が制約境界に近づいた場合にのみ有効となる境界対応探索を誘導するために,制約対応固有の報酬を導入する。
論文 参考訳(メタデータ) (2025-08-03T18:35:55Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究である。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Score-Aware Policy-Gradient and Performance Guarantees using Local Lyapunov Stability [2.180257135067774]
モデルベース強化学習(RL)のための政策段階的手法を提案する。
ネットワークにおけるマルコフ決定過程(MDP)から得られる定常分布のタイプを利用する。
我々は,SAGEに基づく政策段階が局所的に収束していることを示し,その後悔を得る。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。