論文の概要: Likelihood ratio-based policy gradient methods for distorted risk
measures: A non-asymptotic analysis
- arxiv url: http://arxiv.org/abs/2107.04422v1
- Date: Fri, 9 Jul 2021 13:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:42:10.135751
- Title: Likelihood ratio-based policy gradient methods for distorted risk
measures: A non-asymptotic analysis
- Title(参考訳): 非漸近解析による歪みリスク尺度の類似度に基づく政策勾配法
- Authors: Nithia Vijayan and Prashanth L. A
- Abstract要約: 本稿では,リスクに敏感な強化学習コンテキストにおける制御問題の解法として,ポリシー段階のアルゴリズムを提案する。
DRMの目的に対応するポリシー勾配定理の変種を導出する。
DRM目標のほぼ定常点にアルゴリズムの収束を確立する非漸近境界を導出する。
- 参考スコア(独自算出の注目度): 9.734033555407406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose policy-gradient algorithms for solving the problem of control in a
risk-sensitive reinforcement learning (RL) context. The objective of our
algorithm is to maximize the distorted risk measure (DRM) of the cumulative
reward in an episodic Markov decision process (MDP). We derive a variant of the
policy gradient theorem that caters to the DRM objective. Using this theorem in
conjunction with a likelihood ratio (LR) based gradient estimation scheme, we
propose policy gradient algorithms for optimizing DRM in both on-policy and
off-policy RL settings. We derive non-asymptotic bounds that establish the
convergence of our algorithms to an approximate stationary point of the DRM
objective.
- Abstract(参考訳): 本稿では,リスクに敏感な強化学習(rl)環境での制御問題を解決するためのポリシ勾配アルゴリズムを提案する。
本アルゴリズムの目的は,マルコフ決定過程(MDP)における累積報酬の歪みリスク尺度(DRM)を最大化することである。
我々は、drmの目的に対応するポリシー勾配定理の変種を導出する。
この定理とLRに基づく勾配推定手法を併用して,オン・ポリティクスとオフ・ポリティクスのRL設定の両方においてDRMを最適化するポリシー勾配アルゴリズムを提案する。
我々は、drm目標の近似定常点へのアルゴリズムの収束を確立する非漸近境界を導出する。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。
また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Regret Analysis of Policy Gradient Algorithm for Infinite Horizon
Average Reward Markov Decision Processes [38.879933964474326]
我々は、無限水平平均報酬マルコフ決定過程(MDP)を考える。
政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。
提案アルゴリズムが $tildemathcalO(T3/4)$ regret であることを示す。
論文 参考訳(メタデータ) (2023-09-05T03:22:46Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。