論文の概要: On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk
- arxiv url: http://arxiv.org/abs/2103.02827v2
- Date: Fri, 5 Mar 2021 20:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 12:53:00.401859
- Title: On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk
- Title(参考訳): マルコフコヒーレントリスクに対する政策勾配の収束と最適性について
- Authors: Audrey Huang, Liu Leqi, Zachary C. Lipton, Kamyar Azizzadenesheli
- Abstract要約: 本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
- 参考スコア(独自算出の注目度): 32.97618081988295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to model risk aversion in reinforcement learning, an emerging line
of research adapts familiar algorithms to optimize coherent risk functionals, a
class that includes conditional value-at-risk (CVaR). Because optimizing the
coherent risk is difficult in Markov decision processes, recent work tends to
focus on the Markov coherent risk (MCR), a time-consistent surrogate. While,
policy gradient (PG) updates have been derived for this objective, it remains
unclear (i) whether PG finds a global optimum for MCR; (ii) how to estimate the
gradient in a tractable manner. In this paper, we demonstrate that, in general,
MCR objectives (unlike the expected return) are not gradient dominated and that
stationary points are not, in general, guaranteed to be globally optimal.
Moreover, we present a tight upper bound on the suboptimality of the learned
policy, characterizing its dependence on the nonlinearity of the objective and
the degree of risk aversion. Addressing (ii), we propose a practical
implementation of PG that uses state distribution reweighting to overcome
previous limitations. Through experiments, we demonstrate that when the
optimality gap is small, PG can learn risk-sensitive policies. However, we find
that instances with large suboptimality gaps are abundant and easy to
construct, outlining an important challenge for future research.
- Abstract(参考訳): 強化学習におけるリスク回避をモデル化するために、新たな研究ラインでは、よく知られたアルゴリズムを使用してコヒーレントリスク関数(条件付きリスク(CVaR)を含むクラス)を最適化する。
マルコフの決定プロセスではコヒーレントリスクの最適化は困難であるため、最近の研究では、時間の一貫性のある代理であるマルコフコヒーレントリスク(MCR)に焦点を当てる傾向にある。
政策勾配 (PG) の更新はこの目的のために導出されているが、(i) PG が MCR にグローバルに最適であるかどうか、(ii) トラクタブルな方法で勾配を推定する方法は不明である。
本稿では,mcrの目的が(期待値と異なり)勾配が支配的ではなく,定常点が一般にグローバルに最適であることを保証するものではないことを実証する。
さらに,目的の非線形性とリスク回避の程度に依存することを特徴として,学習方針の最適性に対する厳密な上限を示す。
対処法(ii)では, 従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
実験を通じて,最適性ギャップが小さい場合,pgはリスクに敏感な方針を学習できることを実証する。
しかし、大きな最適性ギャップを持つインスタンスは豊富で構築が容易であり、将来の研究における重要な課題を概説する。
関連論文リスト
- Stationary Policies are Optimal in Risk-averse Total-reward MDPs with EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures [17.668631383216233]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
政策グラディエント(PG)法がリスクニュートラルな場合と同じグローバル収束を保証するかどうかは不明だ。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。