論文の概要: Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy
Gradient, and Sample Complexity
- arxiv url: http://arxiv.org/abs/2306.11626v1
- Date: Tue, 20 Jun 2023 15:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 13:46:47.927619
- Title: Regularized Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy
Gradient, and Sample Complexity
- Title(参考訳): 正規化ロバストMDPとリスク感性MDP--等価性、政策勾配、サンプル複雑度
- Authors: Runyu Zhang, Yang Hu, Na Li
- Abstract要約: 本稿では,正則化されたロバストマルコフ決定過程(MDP)問題に対する強化学習に焦点を当てた。
まず、リスクに敏感なMDPを導入し、リスクに敏感なMDPと正規化された堅牢なMDPの等価性を確立する。
- 参考スコア(独自算出の注目度): 10.168617339295382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on reinforcement learning for the regularized robust
Markov decision process (MDP) problem, an extension of the robust MDP
framework. We first introduce the risk-sensitive MDP and establish the
equivalence between risk-sensitive MDP and regularized robust MDP. This
equivalence offers an alternative perspective for addressing the regularized
RMDP and enables the design of efficient learning algorithms. Given this
equivalence, we further derive the policy gradient theorem for the regularized
robust MDP problem and prove the global convergence of the exact policy
gradient method under the tabular setting with direct parameterization. We also
propose a sample-based offline learning algorithm, namely the robust fitted-Z
iteration (RFZI), for a specific regularized robust MDP problem with a
KL-divergence regularization term and analyze the sample complexity of the
algorithm. Our results are also supported by numerical simulations.
- Abstract(参考訳): 本稿では、ロバストなMDPフレームワークの拡張である正則化されたロバストなマルコフ決定プロセス(MDP)問題に対する強化学習に焦点を当てる。
まず、リスクに敏感なMDPを導入し、リスクに敏感なMDPと正規化された堅牢なMDPの等価性を確立する。
この等価性は、正規化されたRMDPに対処するための代替的な視点を提供し、効率的な学習アルゴリズムの設計を可能にする。
この同値性から、正規化されたロバストなMDP問題に対するポリシー勾配定理を導出し、直接パラメタライゼーションを伴う表層設定の下で、正確なポリシー勾配法を大域的に収束させることを証明する。
また、KL分割正規化項を持つ特定の正則化ロバストMDP問題に対して、サンプルベースのオフライン学習アルゴリズム、すなわち、ロバスト適合Z反復(RFZI)を提案し、アルゴリズムのサンプル複雑性を解析する。
この結果は数値シミュレーションでも支持されている。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。
提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文 参考訳(メタデータ) (2024-03-28T17:28:06Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model [61.87673435273466]
本稿では,強化学習(RL)におけるモデルロバスト性を検討した。
我々は,デプロイ環境が,名目MDPに規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策を学習することを目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。
論文 参考訳(メタデータ) (2023-05-26T02:32:03Z) - Risk-Averse MDPs under Reward Ambiguity [9.929659318167731]
本稿では,リスクと報酬のあいまいさの下で,マルコフ決定過程(MDP)の分布的に堅牢なリターンリスクモデルを提案する。
スケーラブルな一階述語アルゴリズムは大規模問題の解法として設計されている。
論文 参考訳(メタデータ) (2023-01-03T11:06:30Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。