論文の概要: Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy
Gradient, and Sample Complexity
- arxiv url: http://arxiv.org/abs/2306.11626v3
- Date: Sun, 15 Oct 2023 18:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:37:49.234122
- Title: Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy
Gradient, and Sample Complexity
- Title(参考訳): 正規化ロバストMDPとリスク感性MDP--等価性、政策勾配、サンプル複雑度
- Authors: Runyu Zhang, Yang Hu, Na Li
- Abstract要約: 本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
- 参考スコア(独自算出の注目度): 8.51403277580522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust Markov Decision Processes (MDPs) and risk-sensitive MDPs are both
powerful tools for making decisions in the presence of uncertainties. Previous
efforts have aimed to establish their connections, revealing equivalences in
specific formulations. This paper introduces a new formulation for
risk-sensitive MDPs, which assesses risk in a slightly different manner
compared to the classical Markov risk measure (Ruszczy\'nski 2010), and
establishes its equivalence with a class of regularized robust MDP (RMDP)
problems, including the standard RMDP as a special case. Leveraging this
equivalence, we further derive the policy gradient theorem for both problems,
proving gradient domination and global convergence of the exact policy gradient
method under the tabular setting with direct parameterization. This forms a
sharp contrast to the Markov risk measure, known to be potentially
non-gradient-dominant (Huang et al. 2021). We also propose a sample-based
offline learning algorithm, namely the robust fitted-Z iteration (RFZI), for a
specific regularized RMDP problem with a KL-divergence regularization term (or
equivalently the risk-sensitive MDP with an entropy risk measure). We showcase
its streamlined design and less stringent assumptions due to the equivalence
and analyze its sample complexity.
- Abstract(参考訳): ロバスト・マルコフ決定プロセス(MDP)とリスクに敏感なMDPは、不確実性の存在下で意思決定を行う強力なツールである。
以前の取り組みは、特定の定式化における等価性を明らかにすることによって、彼らのつながりを確立することを目指してきた。
本稿では,従来のマルコフリスク尺度 (Ruszczy\'nski 2010) と若干異なる方法でリスクを評価できるリスク敏感型MDPの新しい定式化について紹介し,標準RMDPを特別事例として含む正規化されたロバストMDP(RMDP)問題と等価性を確立する。
この等価性を利用して, 両問題に対する政策勾配定理を導出し, 直接パラメータ化を伴う表式設定下での厳密な政策勾配法の勾配支配と大域収束を証明した。
これはマルコーフのリスク尺度とは対照的で、非優越性(huang et al. 2021)の可能性がある。
また,kl-divergence regularization term(またはエントロピーリスク測度を持つリスクに敏感なmdp)を持つ特定の正規化rmdp問題に対して,サンプルベースのオフライン学習アルゴリズム,すなわちロバスト適応z反復(rfzi)を提案する。
本稿では,同値性による設計の合理化と制約の少ない仮定を示し,サンプルの複雑さを解析する。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文 参考訳(メタデータ) (2023-01-03T11:06:30Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。