論文の概要: Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization
- arxiv url: http://arxiv.org/abs/2602.11387v1
- Date: Wed, 11 Feb 2026 21:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.547513
- Title: Provably Efficient Algorithms for S- and Non-Rectangular Robust MDPs with General Parameterization
- Title(参考訳): 一般パラメータを用いたS-および非矩形ロバストMDPの確率的効率的アルゴリズム
- Authors: Anirudh Satheesh, Ziyi Chen, Furong Huang, Heng Huang,
- Abstract要約: 我々は、s-正方形および非正方形不確実性集合の下で、一般的な政策パラメータ化を伴うロバストマルコフ決定過程(RMDP)について検討する。
無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。
本研究では,S-正方形不確かさに対する勾配降下アルゴリズムと非正方形不確かさに対するFrank-Wolfeアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 85.91302339486673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study robust Markov decision processes (RMDPs) with general policy parameterization under s-rectangular and non-rectangular uncertainty sets. Prior work is largely limited to tabular policies, and hence either lacks sample complexity guarantees or incurs high computational cost. Our method reduces the average reward RMDPs to entropy-regularized discounted robust MDPs, restoring strong duality and enabling tractable equilibrium computation. We prove novel Lipschitz and Lipschitz-smoothness properties for general policy parameterizations that extends to infinite state spaces. To address infinite-horizon gradient estimation, we introduce a multilevel Monte Carlo gradient estimator with $\tilde{\mathcal{O}}(ε^{-2})$ sample complexity, a factor of $\mathcal{O}(ε^{-2})$ improvement over prior work. Building on this, we design a projected gradient descent algorithm for s-rectangular uncertainty ($\mathcal{O}(ε^{-5})$) and a Frank--Wolfe algorithm for non-rectangular uncertainty ($\mathcal{O}(ε^{-4})$ discounted, $\mathcal{O}(ε^{-10.5})$ average reward), significantly improving prior results in both the discounted setting and average reward setting. Our work is the first one to provide sample complexity guarantees for RMDPs with general policy parameterization beyond $(s, a)$-rectangularity. It also provides the first such guarantees in the average reward setting and improves existing bounds for discounted robust MDPs.
- Abstract(参考訳): 本研究では,S-正方形および非正方形不確実性集合の下での一般政策パラメータ化によるロバストマルコフ決定過程(RMDP)について検討する。
従来の作業は表形式のポリシーに限られており、そのため、複雑なサンプルの保証が欠けているか、高い計算コストがかかる。
提案手法は, 平均報酬RMDPを, エントロピー規則化された割引型ロバストMDPに還元し, 強い双対性を回復し, トラクタブル均衡計算を可能にする。
無限状態空間に拡張する一般政策パラメタライゼーションに対する新しいリプシッツ・リプシッツ・スムースネス特性を証明した。
無限水平勾配推定に対処するため、事前の作業よりも高めの値である$\tilde{\mathcal{O}}(ε^{-2})$サンプルの複雑さ、$\mathcal{O}(ε^{-2})$の値の値である$\tilde{\mathcal{O}}(ε^{-2})$サンプルの複雑さを持つ多レベルモンテカルロ勾配推定器を導入する。
そこで我々は,s-正方形不確かさ(\mathcal{O}(ε^{-5})$)と非正方形不確かさ(\mathcal{O}(ε^{-4})$割引,$\mathcal{O}(ε^{-10.5})$平均報酬)に対するFrank-Wolfeアルゴリズムの設計を行った。
我々の研究は、RMDPに対して、$(s, a)$-rectangularityを超える一般的なポリシーパラメータ化を備えたサンプル複雑性保証を提供する最初のものである。
また、平均的な報酬設定において、そのような保証を初めて提供し、割引された堅牢なMDPに対する既存の境界を改善します。
関連論文リスト
- Bayesian Risk-Sensitive Policy Optimization For MDPs With General Loss Functions [8.16996766356341]
我々は、一般的な損失関数と未知のパラメータを持つマルコフ決定過程(MDP)を考察する。
我々はベイズ的手法を用いてデータからパラメータを推定し、損失にコヒーレントなリスク関数を課す。
本稿では,コヒーレントリスク尺度の二重表現を利用した政策勾配最適化手法を提案する。
論文 参考訳(メタデータ) (2025-09-19T01:16:59Z) - Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning [10.708457894356563]
ほぼ最適サンプル複雑性を実現するアルゴリズムを2つ提案する。
両アルゴリズムが最適なポリシを推定するために,$widetildeOleft(|mathbfS||mathbfA| t_mathrmmix2varepsilon-2right)のサンプル複雑性が得られることを証明した。
これはDR平均逆強化学習における最初の有限サンプル収束保証である。
論文 参考訳(メタデータ) (2025-05-15T06:42:25Z) - Sample-Efficient Constrained Reinforcement Learning with General Parameterization [35.22742439337603]
エージェントの目標は、無限の地平線上で期待される割引報酬の和を最大化することである。
我々は,世界最適性ギャップを$epsilon$で保証し,制約違反を$epsilon$で保証するPrimal-Dual Accelerated Natural Policy Gradient (PD-ANPG)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-05-17T08:39:05Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。