論文の概要: Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints
- arxiv url: http://arxiv.org/abs/2201.11965v1
- Date: Fri, 28 Jan 2022 07:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 02:17:00.251215
- Title: Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints
- Title(参考訳): 非定常目的と制約を持つCMDPの高能率2次元強化学習
- Authors: Yuhao Ding and Javad Lavaei
- Abstract要約: 非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.840221198764482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider primal-dual-based reinforcement learning (RL) in episodic
constrained Markov decision processes (CMDPs) with non-stationary objectives
and constraints, which play a central role in ensuring the safety of RL in
time-varying environments. In this problem, the reward/utility functions and
the state transition functions are both allowed to vary arbitrarily over time
as long as their cumulative variations do not exceed certain known variation
budgets. Designing safe RL algorithms in time-varying environments is
particularly challenging because of the need to integrate the constraint
violation reduction, safe exploration, and adaptation to the non-stationarity.
To this end, we propose a Periodically Restarted Optimistic Primal-Dual
Proximal Policy Optimization (PROPD-PPO) algorithm that features three
mechanisms: periodic-restart-based policy improvement, dual update with dual
regularization, and periodic-restart-based optimistic policy evaluation. We
establish a dynamic regret bound and a constraint violation bound for the
proposed algorithm in both the linear kernel CMDP function approximation
setting and the tabular CMDP setting. This paper provides the first provably
efficient algorithm for non-stationary CMDPs with safe exploration.
- Abstract(参考訳): 時間変動環境におけるRLの安全性の確保に中心的な役割を果たす非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始的双対強化学習(RL)について考察する。
この問題では、報酬/有効性関数と状態遷移関数の両方が、その累積変動が既知の変動予算を超えない限り、時間とともに任意に変化することが許される。
時間変動環境における安全なrlアルゴリズムの設計は、制約違反の低減、安全な探索、非定常性への適応などを統合する必要があるため、特に困難である。
そこで本研究では,周期的再スタートに基づく政策改善,二重正規化による2次更新,周期的再スタートに基づく楽観的政策評価という3つのメカニズムを特徴とする,周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
本稿では,線形カーネルCMDP関数近似設定と表計算CMDP設定の両方において,提案アルゴリズムに対する動的後悔境界と制約違反境界を確立する。
本稿では,非定常cmdpに対して,安全かつ効率的なアルゴリズムを提案する。
関連論文リスト
- Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees [30.064420218612582]
本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Interior Point Constrained Reinforcement Learning with Global
Convergence Guarantees [8.312636217460039]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、学習中の制約満足度を保証するアルゴリズムの開発に注力する。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Recursively-Constrained Partially Observable Markov Decision Processes [14.46993581579248]
制約付き部分可観測マルコフ決定プロセス(C-POMDP)は、遷移不確実性と部分可観測性の下でそのような問題のモデル化を可能にする。
最適C-POMDPポリシーはベルマンの最適性原理に反する可能性があり、したがって直観的行動を示す可能性がある。
再帰的制約付きPOMDP (Recursively-Constrained POMDP, RC-POMDP) という新しい定式化を導入する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Constrained Proximal Policy Optimization [36.20839673950677]
制約付き近似ポリシー最適化(CPPO)という新しい一階法を提案する。
提案手法は,(1)実現可能な領域(E段階)における最適政策分布を計算し,2)E段階(M段階)において得られた最適政策に対して,現在の政策を調整するための第1次更新を行う,という2つのステップで解決するための期待最大化フレームワークを統合する。
複雑で不確実な環境で実施した実証実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T16:33:55Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。