論文の概要: Provably Efficient Sample Complexity for Robust CMDP
- arxiv url: http://arxiv.org/abs/2511.07486v1
- Date: Wed, 12 Nov 2025 01:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.360881
- Title: Provably Efficient Sample Complexity for Robust CMDP
- Title(参考訳): ロバストCMDPにおける高効率サンプル複雑性
- Authors: Sourav Ganguly, Arnob Ghosh,
- Abstract要約: 安全制約を満たしつつ累積報酬を最大化する学習政策の問題点を考察する。
我々は,強固な制約付きマルコフ決定プロセス(RCMDPs)に焦点を当てる。そこではエージェントは,累積効用がしきい値を超えることを保証しながら報酬を最大化しなければならない。
本稿では,ロバスト制約値反復(RCVI)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.060086147428817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of learning policies that maximize cumulative reward while satisfying safety constraints, even when the real environment differs from a simulator or nominal model. We focus on robust constrained Markov decision processes (RCMDPs), where the agent must maximize reward while ensuring cumulative utility exceeds a threshold under the worst-case dynamics within an uncertainty set. While recent works have established finite-time iteration complexity guarantees for RCMDPs using policy optimization, their sample complexity guarantees remain largely unexplored. In this paper, we first show that Markovian policies may fail to be optimal even under rectangular uncertainty sets unlike the {\em unconstrained} robust MDP. To address this, we introduce an augmented state space that incorporates the remaining utility budget into the state representation. Building on this formulation, we propose a novel Robust constrained Value iteration (RCVI) algorithm with a sample complexity of $\mathcal{\tilde{O}}(|S||A|H^5/ε^2)$ achieving at most $ε$ violation using a generative model where $|S|$ and $|A|$ denote the sizes of the state and action spaces, respectively, and $H$ is the episode length. To the best of our knowledge, this is the {\em first sample complexity guarantee} for RCMDP. Empirical results further validate the effectiveness of our approach.
- Abstract(参考訳): 実環境がシミュレータや名目モデルと異なる場合であっても,安全性制約を満たしつつ累積報酬を最大化する学習方針の問題点を考察する。
そこでは,不確実性集合内の最悪の力学条件の下で,累積効用がしきい値を超えることを保証しながら,報酬を最大化しなければならない。
近年の研究では、ポリシー最適化を用いたRCMDPの有限時間反復複雑性保証が確立されているが、そのサンプルの複雑性保証は未検討のままである。
本稿では, マルコフ政策が, 頑健な MDP とは異なり, 不確定な不確実性集合の下でも最適でないことを示す。
これを解決するために、残りのユーティリティ予算を状態表現に組み込む拡張状態空間を導入する。
この定式化に基づいて,$|S|$と$|A|$が状態空間と行動空間のサイズを表す生成モデルを用いて,$\mathcal{\tilde{O}}(|S||A|H^5/ε^2)$を最大$ε$違反とする新しいロバスト制約値反復法(RCVI)を提案する。
我々の知る限りでは、これはRCMDPにおける最初のサンプル複雑性保証である。
実験結果は我々のアプローチの有効性をさらに検証する。
関連論文リスト
- Efficient Policy Optimization in Robust Constrained MDPs with Iteration Complexity Guarantees [16.01190705000295]
制約のある意思決定は、現実世界の制御システムにおける安全なポリシーの設計に不可欠である。
本稿では,制約値関数を効果的に最小化し,制約を満たす新しい手法を提案する。
そのようなアルゴリズムは、$O(epsilon-2)$の後に、少なくとも$epsilon$の準最適化と実現可能なポリシーを求める。
論文 参考訳(メタデータ) (2025-05-25T17:27:06Z) - Provably Sample-Efficient Robust Reinforcement Learning with Average Reward [4.530028899565083]
本稿では,$ell_p$-normと汚染モデルにより特徴付けられる遷移不確実性を持つロバストなマルコフ決定過程(MDP)を設計した新しいアルゴリズムを提案する。
我々のアルゴリズムは、頑健なMDPの事前知識を必要とせずに動作する。
我々の研究は、ロバスト平均報酬RLのサンプル効率の基本的な理論的理解を提供する。
論文 参考訳(メタデータ) (2025-05-18T15:34:45Z) - Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation [32.74649239695449]
制約決定過程(CMDP)における強化学習問題について検討する。
本稿では,リニアCMDPに対するRLアルゴリズムを提案する。
その結果,近年の線形CMDPアルゴリズムでは,制約に違反するか,指数計算コストに悪影響を及ぼす結果が得られた。
論文 参考訳(メタデータ) (2025-02-14T13:07:25Z) - Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。
我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-05-17T08:39:05Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [71.59406356321101]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Near-Optimal Sample Complexity Bounds for Constrained MDPs [25.509556551558834]
減算CMDPにおける準最適政策を学習するために,サンプルの複雑さを極小値と下位値で表す。
CMDPの学習は,少ない制約違反を許す場合と同等に容易であるが,制約違反を要求しない場合には本質的に困難であることを示す。
論文 参考訳(メタデータ) (2022-06-13T15:58:14Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。