論文の概要: Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets
- arxiv url: http://arxiv.org/abs/2602.05591v1
- Date: Thu, 05 Feb 2026 12:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.920442
- Title: Efficient Algorithms for Robust Markov Decision Processes with $s$-Rectangular Ambiguity Sets
- Title(参考訳): $s$-Rectular Ambiguity Setsを用いたロバストマルコフ決定過程の効率的なアルゴリズム
- Authors: Chin Pang Ho, Marek Petrik, Wolfram Wiesemann,
- Abstract要約: 我々は、$s$正方形曖昧性集合を持つ頑健なMDPのクラスに対する統一的なソリューションフレームワークを開発する。
提案アルゴリズムを用いて,$$$-rectangular robust MDPs with $1$- and $2$-norm,および$$-divergence ambiguity setは,最先端の商用解法よりも数桁早く解けることを示す。
- 参考スコア(独自算出の注目度): 19.053062263045664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust Markov decision processes (MDPs) have attracted significant interest due to their ability to protect MDPs from poor out-of-sample performance in the presence of ambiguity. In contrast to classical MDPs, which account for stochasticity by modeling the dynamics through a stochastic process with a known transition kernel, a robust MDP additionally accounts for ambiguity by optimizing against the most adverse transition kernel from an ambiguity set constructed via historical data. In this paper, we develop a unified solution framework for a broad class of robust MDPs with $s$-rectangular ambiguity sets, where the most adverse transition probabilities are considered independently for each state. Using our algorithms, we show that $s$-rectangular robust MDPs with $1$- and $2$-norm as well as $φ$-divergence ambiguity sets can be solved several orders of magnitude faster than with state-of-the-art commercial solvers, and often only a logarithmic factor slower than classical MDPs. We demonstrate the favorable scaling properties of our algorithms on a range of synthetically generated as well as standard benchmark instances.
- Abstract(参考訳): ロバスト・マルコフ決定プロセス(MDP)は、あいまいさの存在下で、MDPがサンプル外性能の低下から保護できることから、大きな関心を集めている。
古典的なMDPは、既知の遷移カーネルによる確率過程を通して力学をモデル化することで確率性を説明するが、頑健なMDPは、歴史的データを通して構築されたあいまい性集合から最も悪い遷移カーネルを最適化することによって曖昧性も考慮する。
本稿では,各状態に対して最も負の遷移確率が独立に考慮されるような,$s$正方形あいまい性を持つ多種多様なMDPの統一解フレームワークを開発する。
我々のアルゴリズムを用いて、$s$-rectangular robust MDPs with $1$- and $2$-norm および $φ$-divergence ambiguity set が、最先端の商用解法よりも数桁早く解けることを示し、しばしば古典的な MDP よりも遅い対数係数しか解けないことを示した。
我々は,アルゴリズムのスケーリング特性を,標準ベンチマークインスタンスと同様に合成的に生成した範囲で実証する。
関連論文リスト
- Strongly Polynomial Time Complexity of Policy Iteration for $L_\infty$ Robust MDPs [7.694676064731969]
頑健なポリシー反復は、定数(固定された)割引係数を持つ$(s, a)$-正方形$L_infty$RMDPsに対して強ポリノミカル時間で実行されることを示す。
マルコフと強い多項式時間アルゴリズムの存在は、これらの最適化モデルの基本的問題である。
論文 参考訳(メタデータ) (2026-01-30T17:57:07Z) - Solving Robust Markov Decision Processes: Generic, Reliable, Efficient [3.789219860006095]
マルコフ決定プロセス(MDP)は確率の存在下でのシーケンシャルな意思決定のための確立されたモデルである。
我々は、汎用的で信頼性があり、効率的なRMDPを解くためのフレームワークを提供する。
我々のプロトタイプ実装は、既存のツールよりも桁違いに優れている。
論文 参考訳(メタデータ) (2024-12-13T14:55:48Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [71.59406356321101]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Twice Regularized Markov Decision Processes: The Equivalence between
Robustness and Regularization [64.60253456266872]
マルコフ決定プロセス(MDP)は、変化または部分的に知られているシステムのダイナミクスを扱うことを目的としている。
規則化されたMDPは、時間的複雑さを損なうことなく、ポリシー学習の安定性を高める。
ベルマン作用素は、収束と一般化を保証する計画と学習スキームを導出することができる。
論文 参考訳(メタデータ) (2023-03-12T13:03:28Z) - An Efficient Solution to s-Rectangular Robust Markov Decision Processes [49.05403412954533]
テクスツ長方形ロバストマルコフ決定過程(MDP)に対する効率的なロバストな値反復法を提案する。
我々は,L_p$の水充填補題を用いて,ベルマン作用素を具体的形式で導出した。
最適な政策の正確な形を明らかにし、これは、その利点に比例する行動を起こす確率で、新しいしきい値ポリシーであることが判明した。
論文 参考訳(メタデータ) (2023-01-31T13:54:23Z) - Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。
結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文 参考訳(メタデータ) (2023-01-31T12:40:50Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust Phi-Divergence MDPs [13.555107578858307]
我々は、s-矩形あいまい性集合を持つ頑健なMDPのための新しいソリューションフレームワークを開発する。
関連したs-矩形ロバストMDPは、最先端の商用解法よりもはるかに高速に解けることを示す。
論文 参考訳(メタデータ) (2022-05-27T19:08:55Z) - An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。
我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文 参考訳(メタデータ) (2021-07-23T07:19:43Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。