論文の概要: Policy-based Primal-Dual Methods for Convex Constrained Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2205.10715v1
- Date: Sun, 22 May 2022 02:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 05:26:49.486916
- Title: Policy-based Primal-Dual Methods for Convex Constrained Markov Decision
Processes
- Title(参考訳): Convex Constrained Markov Decision Processsのポリシーに基づくPrimal-Dual法
- Authors: Donghao Ying, Mengzi Guo, Yuhao Ding, Javad Lavaei, Zuo-Jun (Max) Shen
- Abstract要約: 本稿では, 目標を凹凸とし, 速度-作用分布の制約を凸凸とする改良された凸拘束決定(CMDP)を導入する。
本研究では,訪問分布に強い目的がある場合に,悲観的状態制約違反が達成可能であることを示す。
- 参考スコア(独自算出の注目度): 9.262157005505221
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study convex Constrained Markov Decision Processes (CMDPs) in which the
objective is concave and the constraints are convex in the state-action
visitation distribution. We propose a policy-based primal-dual algorithm that
updates the primal variable via policy gradient ascent and updates the dual
variable via projected sub-gradient descent. Despite the loss of additivity
structure and the nonconvex nature, we establish the global convergence of the
proposed algorithm by leveraging a hidden convexity in the problem under the
general soft-max parameterization, and prove the
$\mathcal{O}\left(T^{-1/3}\right)$ convergence rate in terms of both optimality
gap and constraint violation. When the objective is strongly concave in the
visitation distribution, we prove an improved convergence rate of
$\mathcal{O}\left(T^{-1/2}\right)$. By introducing a pessimistic term to the
constraint, we further show that a zero constraint violation can be achieved
while preserving the same convergence rate for the optimality gap. This work is
the first one in the literature that establishes non-asymptotic convergence
guarantees for policy-based primal-dual methods for solving infinite-horizon
discounted convex CMDPs.
- Abstract(参考訳): 本研究では,目的が凹凸であり,制約が状態行動訪問分布において凸となる凸拘束マルコフ決定過程(cmdps)について検討する。
本稿では,ポリシー勾配上昇によるプライマリ変数の更新と,予測されたサブ段階降下によるデュアル変数の更新を提案する。
加法構造と非凸性が失われているにもかかわらず、一般のソフトマックスパラメータ化の下で問題内の隠れ凸性を利用して提案アルゴリズムのグローバル収束を確立し、最適性ギャップと制約違反の両方の観点から$\mathcal{O}\left(T^{-1/3}\right)$収束率を証明した。
目的が訪問分布において強凹であるとき、改善された収束率を$\mathcal{O}\left(T^{-1/2}\right)$とする。
制約に悲観的項を導入することにより、最適性ギャップに対して同じ収束率を維持しながら、ゼロ制約違反が達成可能であることを示す。
この研究は、無限ホリゾンディスカウント凸cmdpを解くためのポリシーに基づく原始的手法に対する非漸近収束保証を確立する最初の文献である。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。
我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-05-17T08:39:05Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [42.83837408373223]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。
本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文 参考訳(メタデータ) (2022-06-12T22:31:43Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。