論文の概要: Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain
- arxiv url: http://arxiv.org/abs/2002.12475v1
- Date: Thu, 27 Feb 2020 23:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:19:11.069989
- Title: Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain
- Title(参考訳): デュアルドメインにおける分散リスクによる注意深い強化学習
- Authors: Junyu Zhang, Amrit Singh Bedi, Mengdi Wang, Alec Koppel
- Abstract要約: マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
- 参考スコア(独自算出の注目度): 45.17200683056563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the estimation of risk-sensitive policies in reinforcement learning
problems defined by a Markov Decision Process (MDPs) whose state and action
spaces are countably finite. Prior efforts are predominately afflicted by
computational challenges associated with the fact that risk-sensitive MDPs are
time-inconsistent. To ameliorate this issue, we propose a new definition of
risk, which we call caution, as a penalty function added to the dual objective
of the linear programming (LP) formulation of reinforcement learning. The
caution measures the distributional risk of a policy, which is a function of
the policy's long-term state occupancy distribution. To solve this problem in
an online model-free manner, we propose a stochastic variant of primal-dual
method that uses Kullback-Lieber (KL) divergence as its proximal term. We
establish that the number of iterations/samples required to attain
approximately optimal solutions of this scheme matches tight dependencies on
the cardinality of the state and action spaces, but differs in its dependence
on the infinity norm of the gradient of the risk measure. Experiments
demonstrate the merits of this approach for improving the reliability of reward
accumulation without additional computational burdens.
- Abstract(参考訳): マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
従来の取り組みは、リスクに敏感なMDPが時間的に不整合であるという事実に関連した計算上の課題に大きく左右される。
この問題を改善するために,強化学習の線形計画(lp)定式化の2つの目的に付加されるペナルティ関数として,注意と呼ばれる新たなリスク定義を提案する。
注意事項は、政策の長期的な国家占有分布の機能である政策の分配リスクを測定する。
この問題をオンラインモデルフリーで解くために,kullback-lieber (kl) 発散を近近法として用いたプライマル・デュアル法の確率的変種を提案する。
このスキームのおよそ最適解を得るために必要なイテレーション/サンプルの数は、状態および作用空間の濃度に対する厳密な依存と一致するが、リスク尺度の勾配の無限大ノルムへの依存は異なる。
実験は,計算負荷を増すことなく報酬蓄積の信頼性を向上させるための,この手法の利点を実証する。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Soft Robust MDPs and Risk-Sensitive MDPs: Equivalence, Policy Gradient, and Sample Complexity [7.57543767554282]
本稿では,リスクに敏感なMDPの新たな定式化について紹介し,従来のマルコフリスク尺度と若干異なる方法でリスクを評価する。
両問題に対してポリシー勾配定理を導出し、厳密なポリシー勾配法の勾配支配と大域収束を証明した。
また、サンプルベースのオフライン学習アルゴリズム、すなわちロバスト適応Z反復(RFZI)を提案する。
論文 参考訳(メタデータ) (2023-06-20T15:51:25Z) - Distributional Method for Risk Averse Reinforcement Learning [0.0]
リスク逆マルコフ決定過程における最適政策を学習するための分布法を提案する。
我々は、状態、行動、コストの連続的な観察を仮定し、動的リスク尺度を用いて政策のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-02-27T19:48:42Z) - Conservative Distributional Reinforcement Learning with Safety
Constraints [22.49025480735792]
安全探索は、期待される長期コストが制約されるマルコフ決定問題とみなすことができる。
従来の非政治アルゴリズムは、制約付き最適化問題をラグランジアン緩和手法を導入して、対応する制約なしの双対問題に変換する。
本稿では,ポストリオ政策最適化による保守的分布最大化という,非政治的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-18T19:45:43Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。