論文の概要: Policy Gradient Methods for Distortion Risk Measures
- arxiv url: http://arxiv.org/abs/2107.04422v7
- Date: Mon, 5 Feb 2024 03:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:40:00.263360
- Title: Policy Gradient Methods for Distortion Risk Measures
- Title(参考訳): 歪リスク対策のための政策勾配法
- Authors: Nithia Vijayan and Prashanth L.A
- Abstract要約: 強化学習フレームワークにおいてリスクに敏感なポリシーを学習するポリシー勾配アルゴリズムを提案する。
我々はDRM目標に適合するポリシー勾配定理の変種を導出し、確率比に基づく勾配推定スキームと統合する。
- 参考スコア(独自算出の注目度): 9.554545881355377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose policy gradient algorithms which learn risk-sensitive policies in
a reinforcement learning (RL) framework. Our proposed algorithms maximize the
distortion risk measure (DRM) of the cumulative reward in an episodic Markov
decision process in on-policy and off-policy RL settings, respectively. We
derive a variant of the policy gradient theorem that caters to the DRM
objective, and integrate it with a likelihood ratio-based gradient estimation
scheme. We derive non-asymptotic bounds that establish the convergence of our
proposed algorithms to an approximate stationary point of the DRM objective.
- Abstract(参考訳): 強化学習(RL)フレームワークでリスクに敏感なポリシーを学習するポリシー勾配アルゴリズムを提案する。
提案手法は,オン・ポリシーとオフ・ポリシーのrl設定において,エピソディックマルコフ決定過程における累積報酬の歪みリスク測度(drm)を最大化する。
我々は,drmの目的に適合する政策勾配定理の変種を導出し,確率比に基づく勾配推定法と統合する。
我々は,提案アルゴリズムをDRM目標のほぼ定常点に収束させる非漸近境界を導出する。
関連論文リスト
- Regret Analysis of Policy Gradient Algorithm for Infinite Horizon
Average Reward Markov Decision Processes [38.879933964474326]
我々は、無限水平平均報酬マルコフ決定過程(MDP)を考える。
政策勾配に基づくアルゴリズムを提案し,その大域収束特性を示す。
提案アルゴリズムが $tildemathcalO(T3/4)$ regret であることを示す。
論文 参考訳(メタデータ) (2023-09-05T03:22:46Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Sharp high-probability sample complexities for policy evaluation with
linear function approximation [99.51752176624818]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with
Expected Conditional Risk Measures [18.46039792659141]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
我々は、対応するリスク-逆勾配アルゴリズムのグローバル収束と反復複雑性を提供する。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - A policy gradient approach for optimization of smooth risk measures [8.655294504286635]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。