論文の概要: Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization
- arxiv url: http://arxiv.org/abs/2205.14327v1
- Date: Sat, 28 May 2022 04:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 22:31:56.227202
- Title: Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization
- Title(参考訳): 正則化によるロバストマルコフ決定プロセスの効率的な政策反復
- Authors: Navdeep Kumar, Kfir Levy, Kaixin Wang, Shie Mannor
- Abstract要約: ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
- 参考スコア(独自算出の注目度): 49.05403412954533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov decision processes (MDPs) provide a general framework to model
decision problems where the system dynamics are changing or only partially
known. Recent work established the equivalence between \texttt{s} rectangular
$L_p$ robust MDPs and regularized MDPs, and derived a regularized policy
iteration scheme that enjoys the same level of efficiency as standard MDPs.
However, there lacks a clear understanding of the policy improvement step. For
example, we know the greedy policy can be stochastic but have little clue how
each action affects this greedy policy. In this work, we focus on the policy
improvement step and derive concrete forms for the greedy policy and the
optimal robust Bellman operators. We find that the greedy policy is closely
related to some combination of the top $k$ actions, which provides a novel
characterization of its stochasticity. The exact nature of the combination
depends on the shape of the uncertainty set. Furthermore, our results allow us
to efficiently compute the policy improvement step by a simple binary search,
without turning to an external optimization subroutine. Moreover, for $L_1,
L_2$, and $L_\infty$ robust MDPs, we can even get rid of the binary search and
evaluate the optimal robust Bellman operators exactly. Our work greatly extends
existing results on solving \texttt{s}-rectangular $L_p$ robust MDPs via
regularized policy iteration and can be readily adapted to sample-based
model-free algorithms.
- Abstract(参考訳): ロバスト・マルコフ決定プロセス(MDP)は、システムダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するための一般的なフレームワークを提供する。
最近の研究は、長方形 $L_p$ 頑健な MDP と正規化された MDP の等価性を確立し、標準の MDP と同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
しかし、政策改善のステップについて明確な理解が欠けている。
例えば、欲張り政策は確率的であることはわかっていますが、それぞれの行動がこの欲張り政策にどのように影響するかはほとんどわかりません。
本研究では,政策改善のステップに着目し,欲望政策と最適ロバストベルマン作用素の具体的形式を導出する。
欲求政策は、その確率性の新たな特徴を提供するトップ$k$アクションのいくつかの組み合わせと密接に関連していることがわかった。
組み合わせの正確な性質は不確かさ集合の形に依存する。
さらに,外部最適化サブルーチンに切り替えることなく,単純なバイナリ検索によってポリシー改善のステップを効率的に計算することができる。
さらに、$l_1、l_2$、および$l_\infty$ロバストなmdpでは、バイナリ検索を取り除き、最適なロバストなベルマン演算子を正確に評価することもできます。
我々の研究は、正規化ポリシー反復により、正方形$L_p$ロバストMDPの解法に関する既存の結果を大幅に拡張し、サンプルベースのモデルフリーアルゴリズムに容易に適用できる。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs [17.62509045102346]
本稿では,CMDP(Constrained Markov Decision Processs)における最適ポリシー識別問題について考察する。
私たちは、モデルフリーで、後悔の少ないアルゴリズムに興味を持ち、確率の高いほぼ最適なポリシーを特定しています。
オンラインCMDPのサブ線形後悔と制約違反を伴う既存のモデルフリーアルゴリズムでは、最適ポリシーに対する収束保証は提供されない。
論文 参考訳(メタデータ) (2023-09-27T04:33:09Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - An Efficient Solution to s-Rectangular Robust Markov Decision Processes [49.05403412954533]
テクスツ長方形ロバストマルコフ決定過程(MDP)に対する効率的なロバストな値反復法を提案する。
我々は,L_p$の水充填補題を用いて,ベルマン作用素を具体的形式で導出した。
最適な政策の正確な形を明らかにし、これは、その利点に比例する行動を起こす確率で、新しいしきい値ポリシーであることが判明した。
論文 参考訳(メタデータ) (2023-01-31T13:54:23Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。