論文の概要: Interior Point Constrained Reinforcement Learning with Global
Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2312.00561v1
- Date: Fri, 1 Dec 2023 13:16:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:44:37.451015
- Title: Interior Point Constrained Reinforcement Learning with Global
Convergence Guarantees
- Title(参考訳): グローバル収束保証を用いた内点制約強化学習
- Authors: Tingting Ni, Maryam Kamgarpour
- Abstract要約: 無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。
- 参考スコア(独自算出の注目度): 8.312636217460039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider discounted infinite horizon constrained Markov decision processes
(CMDPs) where the goal is to find an optimal policy that maximizes the expected
cumulative reward subject to expected cumulative constraints. Motivated by the
application of CMDPs in online learning of safety-critical systems, we focus on
developing an algorithm that ensures constraint satisfaction during learning.
To this end, we develop a zeroth-order interior point approach based on the log
barrier function of the CMDP. Under the commonly assumed conditions of Fisher
non-degeneracy and bounded transfer error of the policy parameterization, we
establish the theoretical properties of the algorithm. In particular, in
contrast to existing CMDP approaches that ensure policy feasibility only upon
convergence, our algorithm guarantees feasibility of the policies during the
learning process and converges to the optimal policy with a sample complexity
of $O(\varepsilon^{-6})$. In comparison to the state-of-the-art policy
gradient-based algorithm, C-NPG-PDA, our algorithm requires an additional
$O(\varepsilon^{-2})$ samples to ensure policy feasibility during learning with
same Fisher-non-degenerate parameterization.
- Abstract(参考訳): 我々は,期待累積的制約に対する期待累積報酬を最大化する最適方針を求めることを目的とした,無限遠制約付きマルコフ決定プロセス(cmdps)を検討する。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。
この目的のために,CMDPのログバリア関数に基づくゼロ階内点法を開発した。
フィッシャー非退化とポリシーパラメータ化の有界転送誤差という一般的な仮定条件の下で,アルゴリズムの理論的性質を定式化する。
特に,コンバージェンスのみにポリシーの実現性を保証する既存のCMDPアプローチとは対照的に,本アルゴリズムは学習過程におけるポリシーの実現性を保証し,サンプル複雑性$O(\varepsilon^{-6})$で最適ポリシーに収束する。
C-NPG-PDAアルゴリズムと比較して、我々のアルゴリズムは、同じフィッシャー非退化パラメーターを用いた学習におけるポリシー実現性を確保するために、追加の$O(\varepsilon^{-2})$サンプルを必要とする。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Scalable Online Exploration via Coverability [51.32148652451376]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees [30.064420218612582]
本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。
本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。
従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文 参考訳(メタデータ) (2022-12-20T17:14:14Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm [37.37591558754464]
連続状態-作用空間におけるマルコフ決定過程(CMDP)の問題点を考察する。
本稿では,ゼロ制約違反を実現するために,新しい保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。
論文 参考訳(メタデータ) (2022-06-12T22:31:43Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。