論文の概要: Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy
- arxiv url: http://arxiv.org/abs/2012.14098v2
- Date: Sun, 17 Sep 2023 01:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 02:30:07.433410
- Title: Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy
- Title(参考訳): リスクに敏感なdeep rl: 分散制約されたアクター-クリティックはグローバルに最適なポリシーを見つける
- Authors: Han Zhong, Xun Deng, Ethan X. Fang, Zhuoran Yang, Zhaoran Wang, Runze
Li
- Abstract要約: 本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 95.98698822755227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep reinforcement learning has achieved tremendous successes in
various applications, most existing works only focus on maximizing the expected
value of total return and thus ignore its inherent stochasticity. Such
stochasticity is also known as the aleatoric uncertainty and is closely related
to the notion of risk. In this work, we make the first attempt to study
risk-sensitive deep reinforcement learning under the average reward setting
with the variance risk criteria. In particular, we focus on a
variance-constrained policy optimization problem where the goal is to find a
policy that maximizes the expected value of the long-run average reward,
subject to a constraint that the long-run variance of the average reward is
upper bounded by a threshold. Utilizing Lagrangian and Fenchel dualities, we
transform the original problem into an unconstrained saddle-point policy
optimization problem, and propose an actor-critic algorithm that iteratively
and efficiently updates the policy, the Lagrange multiplier, and the Fenchel
dual variable. When both the value and policy functions are represented by
multi-layer overparameterized neural networks, we prove that our actor-critic
algorithm generates a sequence of policies that finds a globally optimal policy
at a sublinear rate. Further, We provide numerical studies of the proposed
method using two real datasets to back up the theoretical results.
- Abstract(参考訳): 深層強化学習は様々なアプリケーションで大きな成功を収めてきたが、既存の作品の多くは、総リターンの期待値の最大化にのみ焦点を合わせ、本質的な確率性を無視している。
このような確率性はアレエータ的不確実性としても知られ、リスクの概念と密接に関連している。
本研究では,分散リスク基準を用いて平均報酬設定下で,リスクに敏感な深層強化学習を初めて研究する。
特に,長期平均報酬の期待値を最大化する政策を,平均報酬の長期分散がしきい値に上限づけられているという制約を条件として,目標とする分散制約付き政策最適化問題に焦点をあてる。
ラグランジアンとフェンシェルの双対性を利用して、元の問題を制約のないサドルポイントポリシー最適化問題に変換し、ポリシー、ラグランジュ乗算器、フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
値関数とポリシ関数が多層オーバーパラメータ化ニューラルネットワークで表される場合、アクター・クリティカルなアルゴリズムは、サブ線形レートでグローバルに最適なポリシを求める一連のポリシーを生成することを証明します。
さらに,提案手法を2つの実データを用いて数値的に検討し,理論結果を裏付ける。
関連論文リスト
- Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [126.48994084777391]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Provable Offline Reinforcement Learning with Human Feedback [95.21795307294046]
本研究では,人的フィードバックによるオフライン強化学習の課題について検討する。
提案アルゴリズムは,(1)最大類似度推定(MLE)を用いた暗黙の報酬をオフラインデータから一般関数近似で推定し,(2)MLEの周辺に設定された信頼度に対する分布的に堅牢な計画問題を解く。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - A Risk-Sensitive Approach to Policy Optimization [30.221547507877546]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。