論文の概要: Robust Phi-Divergence MDPs
- arxiv url: http://arxiv.org/abs/2205.14202v1
- Date: Fri, 27 May 2022 19:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 17:52:54.753719
- Title: Robust Phi-Divergence MDPs
- Title(参考訳): ロバストPhi-Divergence MDP
- Authors: Chin Pang Ho, Marek Petrik, Wolfram Wiesemann
- Abstract要約: 我々は、s-矩形あいまい性集合を持つ頑健なMDPのための新しいソリューションフレームワークを開発する。
関連したs-矩形ロバストMDPは、最先端の商用解法よりもはるかに高速に解けることを示す。
- 参考スコア(独自算出の注目度): 13.555107578858307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, robust Markov decision processes (MDPs) have emerged as a
prominent modeling framework for dynamic decision problems affected by
uncertainty. In contrast to classical MDPs, which only account for
stochasticity by modeling the dynamics through a stochastic process with a
known transition kernel, robust MDPs additionally account for ambiguity by
optimizing in view of the most adverse transition kernel from a prescribed
ambiguity set. In this paper, we develop a novel solution framework for robust
MDPs with s-rectangular ambiguity sets that decomposes the problem into a
sequence of robust Bellman updates and simplex projections. Exploiting the rich
structure present in the simplex projections corresponding to phi-divergence
ambiguity sets, we show that the associated s-rectangular robust MDPs can be
solved substantially faster than with state-of-the-art commercial solvers as
well as a recent first-order solution scheme, thus rendering them attractive
alternatives to classical MDPs in practical applications.
- Abstract(参考訳): 近年,ロバストマルコフ決定プロセス(mdps)が,不確実性に影響を受ける動的決定問題のモデリングフレームワークとして注目されている。
古典的なMDPは、既知の遷移カーネルによる確率過程を通して力学をモデル化することでしか確率性を考慮しないが、ロバストなMDPは、所定のあいまい性集合から最も有害な遷移カーネルを最適化することで曖昧性も考慮している。
本稿では,s-rectangular ambiguity setを用いたロバストmdpのための新しい解フレームワークを開発し,ロバストなベルマン更新とsimplex射影の列に問題を分解する。
phi-divergence ambiguity 集合に対応する単純射影に存在するリッチな構造をエクスプロットすることにより、関連するs-正方形ロバスト MDP が最先端の商用解法や最近の一階解法よりも大幅に高速に解けることを示す。
関連論文リスト
- Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Model-Free Robust Average-Reward Reinforcement Learning [25.125481838479256]
我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
論文 参考訳(メタデータ) (2023-05-17T18:19:23Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - Robust Markov Decision Processes without Model Estimation [32.16801929347098]
堅牢なMDPの適用には,2つの大きな障壁がある。
第一に、ほとんどの研究はモデルベース体制における堅牢なMDPを研究している。
第二に、先行研究は通常、最適な解を得るために強いオラクルを仮定する。
論文 参考訳(メタデータ) (2023-02-02T17:29:10Z) - On the convex formulations of robust Markov decision processes [12.100620186370012]
RMDPを解くためのMDP凸最適化定式化のアナログ反復は知られていない。
状態や行動の数に多くの変数と制約がある凸定式化を導出するが、制約には大きな係数がある。
論文 参考訳(メタデータ) (2022-09-21T08:39:02Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。