論文の概要: A Sample-Efficient Algorithm for Episodic Finite-Horizon MDP with
Constraints
- arxiv url: http://arxiv.org/abs/2009.11348v1
- Date: Wed, 23 Sep 2020 19:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:17:36.226923
- Title: A Sample-Efficient Algorithm for Episodic Finite-Horizon MDP with
Constraints
- Title(参考訳): 制約付きエピソード有限-水平MDPのサンプル効率アルゴリズム
- Authors: Krishna C. Kalagarla, Rahul Jain, Pierluigi Nuzzo
- Abstract要約: 制約付きマルコフ決定プロセス(CMDP)は、シーケンシャルな意思決定問題を定式化する。
本稿では, 有限水平CMDPの線形計画法を利用して, 繰り返し楽観的な計画を立てるオンラインアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.849815837266977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained Markov Decision Processes (CMDPs) formalize sequential
decision-making problems whose objective is to minimize a cost function while
satisfying constraints on various cost functions. In this paper, we consider
the setting of episodic fixed-horizon CMDPs. We propose an online algorithm
which leverages the linear programming formulation of finite-horizon CMDP for
repeated optimistic planning to provide a probably approximately correct (PAC)
guarantee on the number of episodes needed to ensure an $\epsilon$-optimal
policy, i.e., with resulting objective value within $\epsilon$ of the optimal
value and satisfying the constraints within $\epsilon$-tolerance, with
probability at least $1-\delta$. The number of episodes needed is shown to be
of the order
$\tilde{\mathcal{O}}\big(\frac{|S||A|C^{2}H^{2}}{\epsilon^{2}}\log\frac{1}{\delta}\big)$,
where $C$ is the upper bound on the number of possible successor states for a
state-action pair. Therefore, if $C \ll |S|$, the number of episodes needed
have a linear dependence on the state and action space sizes $|S|$ and $|A|$,
respectively, and quadratic dependence on the time horizon $H$.
- Abstract(参考訳): 制約付きマルコフ決定プロセス(CMDP)は、様々なコスト関数の制約を満たすとともに、コスト関数を最小化することを目的としたシーケンシャルな意思決定問題を定式化する。
本稿では,エピソディック固定ホリゾンcmdpの設定について考察する。
本稿では, 有限水平CMDPの線形計画法を利用して, ほぼ正しい(PAC)保証を提供するオンラインアルゴリズムを提案する。これは, $\epsilon$-Optimal Policy, すなわち, $\epsilon$-Optimal Policy, すなわち, $\epsilon$-tolerance内の制約を満たすために, $\epsilon$-tolerance内の目的値と少なくとも1-\delta$の制約を満たす。
必要なエピソードの数は、$\tilde{\mathcal{o}}\big(\frac{|s||a|c^{2}h^{2}}{\epsilon^{2}}\log\frac{1}{\delta}\big)$という順序で示される。
したがって、もし$c \ll |s|$ であれば、必要なエピソードの数は、状態とアクション空間のサイズそれぞれ$|s|$ と $|a|$ に線形依存し、時間軸 $h$ の二次依存を持つ。
関連論文リスト
- Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Horizon-Free Reinforcement Learning in Polynomial Time: the Power of
Stationary Policies [88.75843804630772]
我々は既存の境界に対して,$Oleft(mathrmpoly(S,A,log K)sqrtKright)を後悔するアルゴリズムを設計する。
この結果は、定常政策の近似力、安定性、および濃度特性を確立する新しい構造補題の列に依存している。
論文 参考訳(メタデータ) (2022-03-24T08:14:12Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints [38.2783003051101]
本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
論文 参考訳(メタデータ) (2020-03-11T23:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。