論文の概要: A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees
- arxiv url: http://arxiv.org/abs/2401.17780v2
- Date: Fri, 2 Feb 2024 13:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 12:02:13.289888
- Title: A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees
- Title(参考訳): 一様PAC保証付き制約付きMDPに対するポリシーグラディエント原始双対アルゴリズム
- Authors: Toshinori Kitamura, Tadashi Kozuno, Masahiro Kato, Yuki Ichihara,
Soichiro Nishimori, Akiyoshi Sannai, Sho Sonoda, Wataru Kumagai, Yutaka
Matsuo
- Abstract要約: 本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
- 参考スコア(独自算出の注目度): 30.064420218612582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a primal-dual reinforcement learning (RL) algorithm for the online
constrained Markov decision processes (CMDP) problem, wherein the agent
explores an optimal policy that maximizes return while satisfying constraints.
Despite its widespread practical use, the existing theoretical literature on
primal-dual RL algorithms for this problem only provides sublinear regret
guarantees and fails to ensure convergence to optimal policies. In this paper,
we introduce a novel policy gradient primal-dual algorithm with uniform
probably approximate correctness (Uniform-PAC) guarantees, simultaneously
ensuring convergence to optimal policies, sublinear regret, and polynomial
sample complexity for any target accuracy. Notably, this represents the first
Uniform-PAC algorithm for the online CMDP problem. In addition to the
theoretical guarantees, we empirically demonstrate in a simple CMDP that our
algorithm converges to optimal policies, while an existing algorithm exhibits
oscillatory performance and constraint violation.
- Abstract(参考訳): 本研究では,オンライン制約付きマルコフ決定プロセス(cmdp)問題に対する予備的強化学習(rl)アルゴリズムについて検討し,制約を満たしながら帰納を最大化する最適方針を検討する。
広く実用化されているにもかかわらず、この問題に対する原始双対RLアルゴリズムに関する既存の理論的文献は、サブ線形後悔の保証のみを提供し、最適なポリシーへの収束を保証するのに失敗する。
本稿では,一様に近似した正当性(Uniform-PAC)を保証し,最適ポリシへの収束,サブ線形後悔,多項式サンプルの複雑さを目標精度で保証する新アルゴリズムを提案する。
これはオンラインCMDP問題に対する最初のUniform-PACアルゴリズムである。
理論的保証に加えて,既存のアルゴリズムは振動性能と制約違反を示すのに対し,我々のアルゴリズムは最適ポリシーに収束するという単純なCMDPを実証的に示す。
関連論文リスト
- Truly No-Regret Learning in Constrained MDPs [66.28706907897285]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Interior Point Constrained Reinforcement Learning with Global
Convergence Guarantees [8.312636217460039]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Average-Constrained Policy Optimization [33.68933638935459]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
平均CMDP設定に適合する他の最先端アルゴリズムと比較して,アルゴリズムの性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-02-02T00:23:36Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - Uniform-PAC Bounds for Reinforcement Learning with Linear Function
Approximation [92.3161051419884]
線形関数近似を用いた強化学習について検討する。
既存のアルゴリズムは、高い確率的後悔と/またはおよそ正当性(PAC)サンプルの複雑さの保証しか持たない。
我々はFLUTEと呼ばれる新しいアルゴリズムを提案し、高い確率で最適ポリシーへの均一PAC収束を享受する。
論文 参考訳(メタデータ) (2021-06-22T08:48:56Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。