論文の概要: Provably Efficient Model-Free Algorithms for Non-stationary CMDPs
- arxiv url: http://arxiv.org/abs/2303.05733v1
- Date: Fri, 10 Mar 2023 06:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 15:48:02.502956
- Title: Provably Efficient Model-Free Algorithms for Non-stationary CMDPs
- Title(参考訳): 非定常cmdpに対する効率的モデルフリーアルゴリズム
- Authors: Honghao Wei, Arnob Ghosh, Ness Shroff, Lei Ying, Xingyu Zhou
- Abstract要約: 非定常制約マルコフ決定過程におけるモデルフリー強化学習アルゴリズムについて検討した。
非定常環境では、累積変動が一定の変動予算を超えない限り、報酬、ユーティリティ関数、遷移カーネルは時間とともに任意に変化する。
本稿では,非定常CMDPに対するサブ線形後悔と制約違反をゼロとする,モデルフリーでシミュレータフリーなRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.930095238723327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study model-free reinforcement learning (RL) algorithms in episodic
non-stationary constrained Markov Decision Processes (CMDPs), in which an agent
aims to maximize the expected cumulative reward subject to a cumulative
constraint on the expected utility (cost). In the non-stationary environment,
reward, utility functions, and transition kernels can vary arbitrarily over
time as long as the cumulative variations do not exceed certain variation
budgets. We propose the first model-free, simulator-free RL algorithms with
sublinear regret and zero constraint violation for non-stationary CMDPs in both
tabular and linear function approximation settings with provable performance
guarantees. Our results on regret bound and constraint violation for the
tabular case match the corresponding best results for stationary CMDPs when the
total budget is known. Additionally, we present a general framework for
addressing the well-known challenges associated with analyzing non-stationary
CMDPs, without requiring prior knowledge of the variation budget. We apply the
approach for both tabular and linear approximation settings.
- Abstract(参考訳): 非定常制約マルコフ決定過程(CMDP)におけるモデルフリー強化学習(RL)アルゴリズムについて検討した。
非定常環境では、累積変動が一定の変動予算を超えない限り、報酬、ユーティリティ関数、遷移カーネルは時間とともに任意に変化する。
表型および線形関数近似設定における非定常cmdpに対して,サブリニアな後悔と制約違反をゼロとしたモデルフリーでシミュレータフリーなrlアルゴリズムを提案する。
本報告では, 表ケースに対する後悔拘束と制約違反に関する結果は, 予算の合計が分かっている場合, 静止cmdpの最良の結果と一致する。
また, 変動予算の事前知識を必要とせず, 非定常CMDPの分析に係わる課題に対処するための一般的な枠組みを提案する。
本手法は線形近似と表表近似の両方に適用する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Learning Constrained Markov Decision Processes With Non-stationary Rewards and Constraints [34.7178680288326]
制約付きマルコフ決定プロセス(CMDP)では、逆の報酬と制約があり、よく知られた不合理性の結果、任意のアルゴリズムがサブリニア後悔とサブリニア制約違反を達成できない。
非定常的な報酬や制約のあるCMDPでは、非定常性の増加とともに性能がスムーズに低下するアルゴリズムを提供することで、この負の結果が緩和できることが示される。
論文 参考訳(メタデータ) (2024-05-23T09:48:48Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Provably Efficient Primal-Dual Reinforcement Learning for CMDPs with
Non-stationary Objectives and Constraints [8.840221198764482]
非定常的目的と制約を伴うマルコフ決定過程(CMDP)における原始双対強化学習(RL)について考察する。
本稿では、周期的再スタートに基づくポリシー改善、二重正則化による二重更新、周期的再スタートに基づく楽観的なポリシー評価の3つのメカニズムを特徴とする、周期的再スタート最適化(PROPD-PPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-28T07:18:29Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - A Lyapunov-Based Methodology for Constrained Optimization with Bandit
Feedback [22.17503016665027]
各アクションが未知の関節分布からランダムな報酬、コスト、ペナルティを返す問題を考える。
我々は、$tt LyOn$という新しい低複雑さアルゴリズムを提案し、$O(sqrtBlog B)$ regretと$O(log B/B)$ constraint-violationを達成することを証明した。
計算コストの低い$tt LyOn$は、Lyapunovをベースとしたアルゴリズム設計手法が制約付き帯域最適化問題の解決に有効であることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T16:12:07Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Nonstationary Reinforcement Learning with Linear Function Approximation [19.521419943509784]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。
まず、周期的再起動を伴う最小二乗値の楽観的な修正を開発し、変動予算が分かっている場合にその動的後悔を束縛する。
非定常線型 MDP に対する最初の minimax dynamic regret lower bound を導出し、副生成物として Jin らによって未解決の線型 MDP に対する minimax regret lower bound を定めている。
論文 参考訳(メタデータ) (2020-10-08T20:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。