Fugu-MT 論文翻訳(概要): Policy-based Primal-Dual Methods for Convex Constrained Markov Decision Processes

論文の概要: Policy-based Primal-Dual Methods for Convex Constrained Markov Decision Processes

arxiv url: http://arxiv.org/abs/2205.10715v1
Date: Sun, 22 May 2022 02:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 05:26:49.486916
Title: Policy-based Primal-Dual Methods for Convex Constrained Markov Decision Processes
Title（参考訳）: Convex Constrained Markov Decision Processsのポリシーに基づくPrimal-Dual法
Authors: Donghao Ying, Mengzi Guo, Yuhao Ding, Javad Lavaei, Zuo-Jun (Max) Shen
Abstract要約: 本稿では, 目標を凹凸とし, 速度-作用分布の制約を凸凸とする改良された凸拘束決定(CMDP)を導入する。本研究では,訪問分布に強い目的がある場合に,悲観的状態制約違反が達成可能であることを示す。
参考スコア（独自算出の注目度）: 9.262157005505221
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: We study convex Constrained Markov Decision Processes (CMDPs) in which the objective is concave and the constraints are convex in the state-action visitation distribution. We propose a policy-based primal-dual algorithm that updates the primal variable via policy gradient ascent and updates the dual variable via projected sub-gradient descent. Despite the loss of additivity structure and the nonconvex nature, we establish the global convergence of the proposed algorithm by leveraging a hidden convexity in the problem under the general soft-max parameterization, and prove the $\mathcal{O}\left(T^{-1/3}\right)$ convergence rate in terms of both optimality gap and constraint violation. When the objective is strongly concave in the visitation distribution, we prove an improved convergence rate of $\mathcal{O}\left(T^{-1/2}\right)$. By introducing a pessimistic term to the constraint, we further show that a zero constraint violation can be achieved while preserving the same convergence rate for the optimality gap. This work is the first one in the literature that establishes non-asymptotic convergence guarantees for policy-based primal-dual methods for solving infinite-horizon discounted convex CMDPs.
Abstract（参考訳）: 本研究では,目的が凹凸であり,制約が状態行動訪問分布において凸となる凸拘束マルコフ決定過程(cmdps)について検討する。本稿では,ポリシー勾配上昇によるプライマリ変数の更新と,予測されたサブ段階降下によるデュアル変数の更新を提案する。加法構造と非凸性が失われているにもかかわらず、一般のソフトマックスパラメータ化の下で問題内の隠れ凸性を利用して提案アルゴリズムのグローバル収束を確立し、最適性ギャップと制約違反の両方の観点から$\mathcal{O}\left(T^{-1/3}\right)$収束率を証明した。目的が訪問分布において強凹であるとき、改善された収束率を$\mathcal{O}\left(T^{-1/2}\right)$とする。制約に悲観的項を導入することにより、最適性ギャップに対して同じ収束率を維持しながら、ゼロ制約違反が達成可能であることを示す。この研究は、無限ホリゾンディスカウント凸cmdpを解くためのポリシーに基づく原始的手法に対する非漸近収束保証を確立する最初の文献である。

関連論文リスト

Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-18T19:53:56Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-05-17T08:39:05Z)
Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文参考訳（メタデータ） (2024-02-16T16:35:18Z)
A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文参考訳（メタデータ） (2023-12-01T13:16:39Z)
The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。世界的な最適な政策勾配(NPG)に収束する。 O (1/t) レート勾配でのポリシー。値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文参考訳（メタデータ） (2023-01-16T06:28:00Z)
Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [42.83837408373223]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文参考訳（メタデータ） (2022-06-12T22:31:43Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-31T20:23:52Z)
Faster Algorithm and Sharper Analysis for Constrained Markov Decision Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文参考訳（メタデータ） (2021-10-20T02:57:21Z)
A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。 PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文参考訳（メタデータ） (2021-07-23T19:38:17Z)
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-01T17:47:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。