Fugu-MT 論文翻訳(概要): Policy Gradient Methods for Distortion Risk Measures

論文の概要: Policy Gradient Methods for Distortion Risk Measures

arxiv url: http://arxiv.org/abs/2107.04422v7
Date: Mon, 5 Feb 2024 03:45:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 07:40:00.263360
Title: Policy Gradient Methods for Distortion Risk Measures
Title（参考訳）: 歪リスク対策のための政策勾配法
Authors: Nithia Vijayan and Prashanth L.A
Abstract要約: 強化学習フレームワークにおいてリスクに敏感なポリシーを学習するポリシー勾配アルゴリズムを提案する。我々はDRM目標に適合するポリシー勾配定理の変種を導出し、確率比に基づく勾配推定スキームと統合する。
参考スコア（独自算出の注目度）: 9.554545881355377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose policy gradient algorithms which learn risk-sensitive policies in a reinforcement learning (RL) framework. Our proposed algorithms maximize the distortion risk measure (DRM) of the cumulative reward in an episodic Markov decision process in on-policy and off-policy RL settings, respectively. We derive a variant of the policy gradient theorem that caters to the DRM objective, and integrate it with a likelihood ratio-based gradient estimation scheme. We derive non-asymptotic bounds that establish the convergence of our proposed algorithms to an approximate stationary point of the DRM objective.
Abstract（参考訳）: 強化学習(RL)フレームワークでリスクに敏感なポリシーを学習するポリシー勾配アルゴリズムを提案する。提案手法は,オン・ポリシーとオフ・ポリシーのrl設定において,エピソディックマルコフ決定過程における累積報酬の歪みリスク測度(drm)を最大化する。我々は,drmの目的に適合する政策勾配定理の変種を導出し,確率比に基づく勾配推定法と統合する。我々は,提案アルゴリズムをDRM目標のほぼ定常点に収束させる非漸近境界を導出する。

関連論文リスト

Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文参考訳（メタデータ） (2024-05-23T16:16:58Z)
A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文参考訳（メタデータ） (2024-03-10T21:45:12Z)
Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes [38.879933964474326]
我々は、無限水平平均報酬マルコフ決定過程(MDP)を考える。政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。提案アルゴリズムが $tildemathcalO(T3/4)$ regret であることを示す。
論文参考訳（メタデータ） (2023-09-05T03:22:46Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文参考訳（メタデータ） (2023-05-26T16:48:05Z)
Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-10T21:09:44Z)
A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-22T17:26:28Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文参考訳（メタデータ） (2020-09-14T16:22:46Z)
Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文参考訳（メタデータ） (2020-02-10T18:41:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。