論文の概要: Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization
- arxiv url: http://arxiv.org/abs/2303.06654v1
- Date: Sun, 12 Mar 2023 13:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 17:35:52.834208
- Title: Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization
- Title(参考訳): 2つの正則マルコフ決定過程:ロバストネスと正則化の等価性
- Authors: Esther Derman, Yevgeniy Men, Matthieu Geist, Shie Mannor
- Abstract要約: マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
- 参考スコア(独自算出の注目度): 64.60253456266872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov decision processes (MDPs) aim to handle changing or partially
known system dynamics. To solve them, one typically resorts to robust
optimization methods. However, this significantly increases computational
complexity and limits scalability in both learning and planning. On the other
hand, regularized MDPs show more stability in policy learning without impairing
time complexity. Yet, they generally do not encompass uncertainty in the model
dynamics. In this work, we aim to learn robust MDPs using regularization. We
first show that regularized MDPs are a particular instance of robust MDPs with
uncertain reward. We thus establish that policy iteration on reward-robust MDPs
can have the same time complexity as on regularized MDPs. We further extend
this relationship to MDPs with uncertain transitions: this leads to a
regularization term with an additional dependence on the value function. We
then generalize regularized MDPs to twice regularized MDPs ($\text{R}^2$ MDPs),
i.e., MDPs with $\textit{both}$ value and policy regularization. The
corresponding Bellman operators enable us to derive planning and learning
schemes with convergence and generalization guarantees, thus reducing
robustness to regularization. We numerically show this two-fold advantage on
tabular and physical domains, highlighting the fact that $\text{R}^2$ preserves
its efficacy in continuous environments.
- Abstract(参考訳): ロバストマルコフ決定プロセス(MDPs)は、システムダイナミクスの変更や部分的に知られている処理の処理を目的としている。
それらを解決するために、一般的には堅牢な最適化手法を用いる。
しかし、これは計算の複雑さを著しく増加させ、学習と計画の両方におけるスケーラビリティを制限します。
一方、正規化されたmdpは、時間の複雑さを損なうことなく、ポリシー学習においてより安定性を示す。
しかし、一般にモデル力学における不確実性は含まない。
本研究では,正規化を用いた堅牢なMDPの学習を目指す。
まず、正規化されたMDPは、不確実な報酬を持つ堅牢なMDPの特殊な例であることを示す。
したがって、報酬を損なうMDPのポリシーイテレーションは、正規化されたMDPと同じ時間複雑性を持つ。
我々はさらにこの関係を不確定な遷移を伴うmdpにも拡張する: これは値関数にさらに依存する正規化項をもたらす。
次に、正規化された MDP を 2 度正規化された MDP (\text{R}^2$ MDPs)、すなわち$\textit{both}$ の MDP に一般化する。
対応するベルマン演算子は、収束と一般化の保証によって計画と学習のスキームを導出することができ、それによって正規化に対する堅牢性が低下する。
この2次元のアドバンテージを表と物理ドメインで数値的に示し,$\text{r}^2$が連続環境において有効性を維持することを強調する。
関連論文リスト
- Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - A Relation Analysis of Markov Decision Process Frameworks [26.308541799686505]
機械学習における異なる決定プロセス(MDP)フレームワークと計量経済学文献との関係について検討する。
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:27:26Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。