論文の概要: Partial Policy Iteration for L1-Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2006.09484v1
- Date: Tue, 16 Jun 2020 19:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 20:19:38.877448
- Title: Partial Policy Iteration for L1-Robust Markov Decision Processes
- Title(参考訳): L1-ロバストマルコフ決定過程の部分的政策反復
- Authors: Chin Pang Ho and Marek Petrik and Wolfram Wiesemann
- Abstract要約: 本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
- 参考スコア(独自算出の注目度): 13.555107578858307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust Markov decision processes (MDPs) allow to compute reliable solutions
for dynamic decision problems whose evolution is modeled by rewards and
partially-known transition probabilities. Unfortunately, accounting for
uncertainty in the transition probabilities significantly increases the
computational complexity of solving robust MDPs, which severely limits their
scalability. This paper describes new efficient algorithms for solving the
common class of robust MDPs with s- and sa-rectangular ambiguity sets defined
by weighted $L_1$ norms. We propose partial policy iteration, a new, efficient,
flexible, and general policy iteration scheme for robust MDPs. We also propose
fast methods for computing the robust Bellman operator in quasi-linear time,
nearly matching the linear complexity the non-robust Bellman operator. Our
experimental results indicate that the proposed methods are many orders of
magnitude faster than the state-of-the-art approach which uses linear
programming solvers combined with a robust value iteration.
- Abstract(参考訳): ロバスト・マルコフ決定過程(MDP)は、報酬と部分的に知られた遷移確率によってモデル化された動的決定問題に対する信頼性の高い解を計算することができる。
残念なことに、遷移確率の不確実性を考慮すると、堅牢なMDPを解く際の計算複雑性が著しく増加し、スケーラビリティが著しく制限される。
本稿では, 重み付き $l_1$ ノルムで定義される s- および sa-rectangular ambiguity 集合を用いたロバストな mdps の共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は,ロバストなmdpのための新しい,効率的,フレキシブル,汎用的なポリシイテレーションスキームである部分ポリシーイテレーションを提案する。
また,非ロバストベルマン作用素の線形複雑性にほぼ一致するような,ロバストベルマン作用素を準線形時間で計算するための高速手法を提案する。
実験結果から,提案手法は線形計画解法とロバストな値反復法を併用した最先端手法よりも桁違いに高速であることが示唆された。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Non-stationary Reinforcement Learning under General Function
Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T16:19:37Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - An Efficient Solution to s-Rectangular Robust Markov Decision Processes [49.05403412954533]
テクスツ長方形ロバストマルコフ決定過程(MDP)に対する効率的なロバストな値反復法を提案する。
我々は,L_p$の水充填補題を用いて,ベルマン作用素を具体的形式で導出した。
最適な政策の正確な形を明らかにし、これは、その利点に比例する行動を起こす確率で、新しいしきい値ポリシーであることが判明した。
論文 参考訳(メタデータ) (2023-01-31T13:54:23Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust Phi-Divergence MDPs [13.555107578858307]
我々は、s-矩形あいまい性集合を持つ頑健なMDPのための新しいソリューションフレームワークを開発する。
関連したs-矩形ロバストMDPは、最先端の商用解法よりもはるかに高速に解けることを示す。
論文 参考訳(メタデータ) (2022-05-27T19:08:55Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。