論文の概要: Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk
- arxiv url: http://arxiv.org/abs/2405.01718v1
- Date: Thu, 2 May 2024 20:28:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:34:45.208450
- Title: Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk
- Title(参考訳): 条件付き付加価値を用いたロバストリスク感性強化学習
- Authors: Xinyi Ni, Lifeng Lai,
- Abstract要約: 我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
- 参考スコア(独自算出の注目度): 23.63388546004777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust Markov Decision Processes (RMDPs) have received significant research interest, offering an alternative to standard Markov Decision Processes (MDPs) that often assume fixed transition probabilities. RMDPs address this by optimizing for the worst-case scenarios within ambiguity sets. While earlier studies on RMDPs have largely centered on risk-neutral reinforcement learning (RL), with the goal of minimizing expected total discounted costs, in this paper, we analyze the robustness of CVaR-based risk-sensitive RL under RMDP. Firstly, we consider predetermined ambiguity sets. Based on the coherency of CVaR, we establish a connection between robustness and risk sensitivity, thus, techniques in risk-sensitive RL can be adopted to solve the proposed problem. Furthermore, motivated by the existence of decision-dependent uncertainty in real-world problems, we study problems with state-action-dependent ambiguity sets. To solve this, we define a new risk measure named NCVaR and build the equivalence of NCVaR optimization and robust CVaR optimization. We further propose value iteration algorithms and validate our approach in simulation experiments.
- Abstract(参考訳): ロバスト・マルコフ決定過程(RMDP)は、しばしば固定遷移確率を仮定する標準マルコフ決定過程(MDP)の代替として、大きな研究関心を集めている。
RMDPは、あいまいさセット内の最悪のシナリオを最適化することで、この問題に対処する。
従来のRMDPの研究はリスクニュートラル強化学習(RL)を中心に行われてきたが,本研究では,CVaRをベースとしたRMDPによるリスク感受性RLのロバスト性について検討した。
まず、所定のあいまいさ集合を考える。
CVaRのコヒーレンシに基づいて,ロバストネスとリスク感度の関連性を確立する。
さらに、実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
そこで我々は, NCVaR という新たなリスク尺度を定義し, NCVaR 最適化とロバストな CVaR 最適化の等価性を構築する。
さらに,数値反復アルゴリズムを提案し,シミュレーション実験におけるアプローチを検証する。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。