論文の概要: Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints
- arxiv url: http://arxiv.org/abs/2003.05555v6
- Date: Mon, 13 Jun 2022 22:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:31:43.870723
- Title: Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints
- Title(参考訳): ピーク制約付きmdpsの効率的モデルフリーアルゴリズム
- Authors: Qinbo Bai and Vaneet Aggarwal and Ather Gattami
- Abstract要約: 本稿では,有限地平線における全報酬の最大化と,各エポックにおける制約を確率1で満たすため,エージェントがポリシーを選択する,制約付きマルコフ決定プロセス(PCMDP)について考察する。
そこで本研究では,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
- 参考スコア(独自算出の注目度): 38.2783003051101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the optimization of dynamic systems, the variables typically have
constraints. Such problems can be modeled as a Constrained Markov Decision
Process (CMDP). This paper considers the peak Constrained Markov Decision
Process (PCMDP), where the agent chooses the policy to maximize total reward in
the finite horizon as well as satisfy constraints at each epoch with
probability 1. We propose a model-free algorithm that converts PCMDP problem to
an unconstrained problem and a Q-learning based approach is applied. We define
the concept of probably approximately correct (PAC) to the proposed PCMDP
problem. The proposed algorithm is proved to achieve an $(\epsilon,p)$-PAC
policy when the episode $K\geq\Omega(\frac{I^2H^6SA\ell}{\epsilon^2})$, where
$S$ and $A$ are the number of states and actions, respectively. $H$ is the
number of epochs per episode. $I$ is the number of constraint functions, and
$\ell=\log(\frac{SAT}{p})$. We note that this is the first result on PAC kind
of analysis for PCMDP with peak constraints, where the transition dynamics are
not known apriori. We demonstrate the proposed algorithm on an energy
harvesting problem and a single machine scheduling problem, where it performs
close to the theoretical upper bound of the studied optimization problem.
- Abstract(参考訳): 動的システムの最適化では、変数は一般に制約を持つ。
このような問題をCMDP(Constrained Markov Decision Process)としてモデル化することができる。
本稿では,有限地平線における全報酬を最大化し,かつ各エポックにおける制約を確率1で満たす政策を選択する,制約付きマルコフ決定過程(PCMDP)について考察する。
我々は,PCMDP問題を制約のない問題に変換するモデルフリーアルゴリズムを提案し,Q-ラーニングに基づくアプローチを適用した。
提案した PCMDP 問題に対して,ほぼ正しい (PAC) の概念を定義する。
提案するアルゴリズムは、エピソード $k\geq\omega(\frac{i^2h^6sa\ell}{\epsilon^2})$ に対して$(\epsilon,p)$-pacポリシーを成立させることが証明されている。
$H$はエピソードごとのエポックの数です。
I$は制約関数の数であり、$\ell=\log(\frac{SAT}{p})$である。
ピーク制約を持つPCMDPのPAC解析における最初の結果であり、遷移ダイナミクスはアプリオリではない。
提案手法は, エネルギー収穫問題と単機スケジューリング問題に対して提案手法を実証し, 検討された最適化問題の理論的上限に近い性能を示す。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Bayesian Learning of Optimal Policies in Markov Decision Processes with Countably Infinite State-Space [0.0]
離散時間可算状態空間マルコフ決定過程の族を最適に制御する問題について検討する。
動的サイズのエピソードを用いたトンプソンサンプリングに基づくアルゴリズムを提案する。
提案アルゴリズムは, 近似最適制御アルゴリズムの開発に応用可能であることを示す。
論文 参考訳(メタデータ) (2023-06-05T03:57:16Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Efficient Algorithms for Planning with Participation Constraints [74.74967476995572]
我々は[Zhang et al., 2022]に導入された参加制約を伴う計画の問題を考える。
この問題では、プリンシパルが決定プロセスのアクションを選択し、プリンシパルとエージェントの別々のユーティリティが生成される。
有限ホライズン設定では,これまでは$varepsilon$-approximationという付加値しか知られていなかった。
論文 参考訳(メタデータ) (2022-05-16T15:47:41Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Achieving Zero Constraint Violation for Constrained Reinforcement
Learning via Primal-Dual Approach [37.80609997145897]
強化学習は、環境と対話しながらシーケンシャルな決定を行う必要があるアプリケーションで広く使われている。
決定要件がいくつかの安全制約を満たすことを含むと、問題はより難しくなります。
CMDP問題をモデルのない方法で解き、$epsilon$-optimal cumulative rewardを$epsilon$-factible Policyで達成することができる。
ここでの重要な疑問は、制約違反ゼロで$epsilon$-optimal cumulative rewardを達成できるかどうかである。
論文 参考訳(メタデータ) (2021-09-13T21:27:03Z) - Model-Free Algorithm and Regret Analysis for MDPs with Long-Term
Constraints [38.2783003051101]
本稿では,制約付き最適化とQ-ラーニングの概念を用いて,長期制約付きCMDPのアルゴリズムを提案する。
本研究は, 長期的制約を伴うMDPの遺残分析における最初の結果であり, 遷移確率はアプリオリではないことに留意する。
論文 参考訳(メタデータ) (2020-06-10T17:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。