論文の概要: First-order Policy Optimization for Robust Markov Decision Process
- arxiv url: http://arxiv.org/abs/2209.10579v2
- Date: Sat, 10 Jun 2023 21:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:42:16.302473
- Title: First-order Policy Optimization for Robust Markov Decision Process
- Title(参考訳): ロバストマルコフ決定過程の1次政策最適化
- Authors: Yan Li, Guanghui Lan, Tuo Zhao
- Abstract要約: 我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
- 参考スコア(独自算出の注目度): 40.2022466644885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of solving robust Markov decision process (MDP),
which involves a set of discounted, finite state, finite action space MDPs with
uncertain transition kernels. The goal of planning is to find a robust policy
that optimizes the worst-case values against the transition uncertainties, and
thus encompasses the standard MDP planning as a special case. For
$(\mathbf{s},\mathbf{a})$-rectangular uncertainty sets, we establish several
structural observations on the robust objective, which facilitates the
development of a policy-based first-order method, namely the robust policy
mirror descent (RPMD). An $\mathcal{O}(\log(1/\epsilon))$ iteration complexity
for finding an $\epsilon$-optimal policy is established with linearly
increasing stepsizes. We further develop a stochastic variant of the robust
policy mirror descent method, named SRPMD, when the first-order information is
only available through online interactions with the nominal environment. We
show that the optimality gap converges linearly up to the noise level, and
consequently establish an $\tilde{\mathcal{O}}(1/\epsilon^2)$ sample complexity
by developing a temporal difference learning method for policy evaluation. Both
iteration and sample complexities are also discussed for RPMD with a constant
stepsize. To the best of our knowledge, all the aforementioned results appear
to be new for policy-based first-order methods applied to the robust MDP
problem.
- Abstract(参考訳): 我々は,安定なマルコフ決定過程 (MDP) の解法について考察する。これは,不確実な遷移カーネルを持つ,割引された有限状態有限作用空間 MDP の集合を含む。
計画の目標は、移行の不確実性に対して最悪の場合の値を最適化し、そのため、特別のケースとして標準のMDP計画を包含する堅牢な政策を見つけることである。
$(\mathbf{s},\mathbf{a})$-正方形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的観察を確立し、ポリシーに基づく一階法、すなわちロバストなポリシーミラー降下(RPMD)の開発を促進する。
a $\mathcal{o}(\log(1/\epsilon))$ cycle complexity for find a $\epsilon$-optimal policy is established with linearly increasing stepsizes.(英語版)
さらに,SRPMDと名づけられたロバストポリシーミラー降下手法の確率的変種を開発し,その1次情報は,名目環境とのオンラインインタラクションを通じてのみ利用可能である。
最適性ギャップはノイズレベルまで線形に収束し,政策評価のための時間差学習法を開発することにより,サンプル複雑性を$\tilde{\mathcal{o}}(1/\epsilon^2)$とする。
反復とサンプルの複雑さは、RPMDに対して一定のステップサイズで議論される。
我々の知る限り、上記の結果はすべて、ロバストなMDP問題に適用されたポリシーベースの一階法に新しいものと思われる。
関連論文リスト
- Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - First-order Policy Optimization for Robust Policy Evaluation [10.772560347950053]
我々は,ロバストなマルコフ決定プロセスに対する政策最適化の視点を,$mathrms$rectangular ambiguity Setで採用する。
The developed method, named first-order policy evaluation (FRPE) は、決定論的(オフライン)と線形(オンライン)の両方でロバストな政策評価のための最初の統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-07-29T05:22:43Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Stochastic first-order methods for average-reward Markov decision processes [10.023632561462712]
平均回帰マルコフ決定過程(AMDP)について検討し,政策最適化と政策評価の両面において理論的確証が強い新しい一階法を開発した。
政策評価と政策最適化の部分を組み合わせることで、生成的およびマルコフ的ノイズモデルの両方の下で、AMDPを解くためのサンプル複雑性結果を確立する。
論文 参考訳(メタデータ) (2022-05-11T23:02:46Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。