論文の概要: Dual Formulation for Non-Rectangular Lp Robust Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2502.09432v1
- Date: Thu, 13 Feb 2025 15:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:44.564604
- Title: Dual Formulation for Non-Rectangular Lp Robust Markov Decision Processes
- Title(参考訳): 非矩形Lpロバストマルコフ決定過程の二重定式化
- Authors: Navdeep Kumar, Adarsh Gupta, Maxence Mohamed Elfatihi, Giorgia Ramponi, Kfir Yehuda Levy, Shie Mannor,
- Abstract要約: 非矩形不確実性集合を持つロバストマルコフ決定過程(RMDP)について検討する。
構造的単純さによる複雑性障壁を回避するために,$L_p$有界不確実集合の強力なクラスを同定する。
- 参考スコア(独自算出の注目度): 45.63877278757336
- License:
- Abstract: We study robust Markov decision processes (RMDPs) with non-rectangular uncertainty sets, which capture interdependencies across states unlike traditional rectangular models. While non-rectangular robust policy evaluation is generally NP-hard, even in approximation, we identify a powerful class of $L_p$-bounded uncertainty sets that avoid these complexity barriers due to their structural simplicity. We further show that this class can be decomposed into infinitely many \texttt{sa}-rectangular $L_p$-bounded sets and leverage its structural properties to derive a novel dual formulation for $L_p$ RMDPs. This formulation provides key insights into the adversary's strategy and enables the development of the first robust policy evaluation algorithms for non-rectangular RMDPs. Empirical results demonstrate that our approach significantly outperforms brute-force methods, establishing a promising foundation for future investigation into non-rectangular robust MDPs.
- Abstract(参考訳): 従来の長方形モデルとは異なり、状態間の相互依存性をキャプチャする非矩形不確実性集合を用いたロバストマルコフ決定過程(RMDP)について検討する。
非正方形ロバストな政策評価は一般にNPハードであるが、近似においても、構造的単純さからこれらの複雑性障壁を避けるために、$L_p$有界不確実性集合の強力なクラスを同定する。
さらに、このクラスは無限個の正方形$L_p$有界集合に分解でき、その構造特性を利用して$L_p$ RMDPの新たな双対形式を導出できることを示す。
この定式化は、敵の戦略に関する重要な洞察を与え、非矩形RMDPに対する最初の堅牢なポリシー評価アルゴリズムの開発を可能にする。
実験の結果, 本手法はブルートフォース法を著しく上回り, 非正方形頑健なMDPの今後の研究の基盤となる可能性が示唆された。
関連論文リスト
- Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。
本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。
さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文 参考訳(メタデータ) (2024-11-12T03:22:56Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Policy Gradient Algorithms for Robust MDPs with Non-Rectangular
Uncertainty Sets [10.26382228865201]
非矩形不確実性集合を持つロバスト無限水平マルコフ決定過程(MDP)に対するポリシー勾配アルゴリズムを提案する。
対応するロバストなMDPは動的プログラミング技術では解決できず、実際は難解である。
そこで我々は,大域的最適性保証を提供する非矩形不確実性集合を持つ頑健なMDPに対する最初の完全解法を提案する。
論文 参考訳(メタデータ) (2023-05-30T13:02:25Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - Partial Policy Iteration for L1-Robust Markov Decision Processes [13.555107578858307]
本稿では、ロバストなMDPの共通クラスを解くための新しい効率的なアルゴリズムについて述べる。
我々は、ロバストなMDPのための部分ポリシーイテレーション、新しい、効率的で柔軟な、一般的なポリシーイテレーションスキームを提案する。
実験結果から,提案手法は最先端手法よりも桁違いに高速であることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T19:50:14Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。