論文の概要: On the Global Convergence of Risk-Averse Policy Gradient Methods with
Dynamic Time-Consistent Risk Measures
- arxiv url: http://arxiv.org/abs/2301.10932v1
- Date: Thu, 26 Jan 2023 04:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:19:47.667467
- Title: On the Global Convergence of Risk-Averse Policy Gradient Methods with
Dynamic Time-Consistent Risk Measures
- Title(参考訳): 動的時間整合リスク対策によるリスク回避政策勾配法のグローバル収束について
- Authors: Xian Yu and Lei Ying
- Abstract要約: リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
リスクに敏感なRLのための政策勾配法が開発されているが、これらの手法がリスクニュートラルの場合と同じグローバル収束保証を享受しているかどうかは不明である。
- 参考スコア(独自算出の注目度): 18.46039792659141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-sensitive reinforcement learning (RL) has become a popular tool to
control the risk of uncertain outcomes and ensure reliable performance in
various sequential decision-making problems. While policy gradient methods have
been developed for risk-sensitive RL, it remains unclear if these methods enjoy
the same global convergence guarantees as in the risk-neutral case. In this
paper, we consider a class of dynamic time-consistent risk measures, called
Expected Conditional Risk Measures (ECRMs), and derive policy gradient updates
for ECRM-based objective functions. Under both constrained direct
parameterization and unconstrained softmax parameterization, we provide global
convergence of the corresponding risk-averse policy gradient algorithms. We
further test a risk-averse variant of REINFORCE algorithm on a stochastic
Cliffwalk environment to demonstrate the efficacy of our algorithm and the
importance of risk control.
- Abstract(参考訳): リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御し、様々なシーケンシャルな意思決定問題において信頼性の高い性能を確保するための一般的なツールとなっている。
リスクに敏感なrlのためのポリシーグラデーション手法が開発されているが、リスク中立の場合と同じグローバルコンバージェンス保証を享受するかどうかはまだ不明である。
本稿では,予測条件付きリスク対策 (ECRMs) と呼ばれる動的時間整合性リスク対策のクラスを考察し,ECRMに基づく目標関数に対する政策勾配の更新を導出する。
制約付き直接パラメタライゼーションと制約なしソフトマックスパラメタライゼーションの両方の下で、我々は対応するリスク-逆ポリシー勾配アルゴリズムを大域的に収束させる。
さらに,確率的クリフウォーク環境下でREINFORCEアルゴリズムのリスク-逆変種を検証し,アルゴリズムの有効性とリスク管理の重要性を実証する。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。