論文の概要: Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs
- arxiv url: http://arxiv.org/abs/2406.18529v2
- Date: Thu, 07 Nov 2024 21:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:03.113384
- Title: Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs
- Title(参考訳): q_π$-realizable Constrained MDPにおける地域計画の信頼性と自然政策
- Authors: Tian Tian, Lin F. Yang, Csaba Szepesvári,
- Abstract要約: 制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
- 参考スコア(独自算出の注目度): 44.69257217086967
- License:
- Abstract: The constrained Markov decision process (CMDP) framework emerges as an important reinforcement learning approach for imposing safety or other critical objectives while maximizing cumulative reward. However, the current understanding of how to learn efficiently in a CMDP environment with a potentially infinite number of states remains under investigation, particularly when function approximation is applied to the value functions. In this paper, we address the learning problem given linear function approximation with $q_{\pi}$-realizability, where the value functions of all policies are linearly representable with a known feature map, a setting known to be more general and challenging than other linear settings. Utilizing a local-access model, we propose a novel primal-dual algorithm that, after $\tilde{O}(\text{poly}(d) \epsilon^{-3})$ queries, outputs with high probability a policy that strictly satisfies the constraints while nearly optimizing the value with respect to a reward function. Here, $d$ is the feature dimension and $\epsilon > 0$ is a given error. The algorithm relies on a carefully crafted off-policy evaluation procedure to evaluate the policy using historical data, which informs policy updates through policy gradients and conserves samples. To our knowledge, this is the first result achieving polynomial sample complexity for CMDP in the $q_{\pi}$-realizable setting.
- Abstract(参考訳): 制約付きマルコフ決定プロセス(CMDP)フレームワークは、累積報酬を最大化しつつ、安全性や他の重要な目標を課すための重要な強化学習アプローチとして出現する。
しかし、CMDP環境での効率的な学習方法に関する現在の理解は、特に関数近似が値関数に適用された場合、研究が続けられている。
本稿では, 線形関数を$q_{\pi}$-realizabilityで近似した学習問題に対処し, 全てのポリシーの値関数が既知の特徴写像で線形表現可能であることを示す。
局所アクセスモデルを用いて,$\tilde{O}(\text{poly}(d) \epsilon^{-3})$クエリの後に,厳密な制約を満たすポリシを高確率で出力し,報酬関数に関する値をほぼ最適化する,新しい原始双対アルゴリズムを提案する。
ここで$d$は特徴次元であり、$\epsilon > 0$は与えられたエラーである。
このアルゴリズムは、政策を歴史的データを用いて評価するために、慎重に作られた非政治評価手順に依存しており、政策の勾配を通じてポリシーの更新を通知し、サンプルを保存している。
我々の知る限り、これは$q_{\pi}$-realizable設定でCMDPの多項式サンプル複雑性を達成する最初の結果である。
関連論文リスト
- A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Confident Approximate Policy Iteration for Efficient Local Planning in
$q^\pi$-realizable MDPs [2.5652904661855076]
我々は、$gamma$-discounted Markov決定過程における近似動的プログラミングについて考察する。
私たちの最初のコントリビューションは、CAPI(Confident Approximate Policy Iteration)と呼ばれる、新しいバージョンの近似ポリシーイテレーション(API)です。
CAPIは、最適エラーバウンドスケーリングによる決定論的定常ポリシーを、有効地平線$H$と最悪の近似誤差$epsilon$の積と線形に計算する。
論文 参考訳(メタデータ) (2022-10-27T20:19:31Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On Query-efficient Planning in MDPs under Linear Realizability of the
Optimal State-value Function [14.205660708980988]
固定水平マルコフ決定過程(MDP)における局所的計画の問題点を生成モデルを用いて考察する。
最近の下界は、最適ポリシーの作用値関数が線形に実現可能である場合の関連する問題は指数的なクエリ数を必要とすることを証明している。
本研究では,アクションセットが小さい場合,ポリ$(H, d)$学習が(状態値関数の実現可能性を持つ)可能であることを確かめる。
論文 参考訳(メタデータ) (2021-02-03T13:23:15Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。