論文の概要: Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement   Learning with Provable Convergence
        - arxiv url: http://arxiv.org/abs/2405.14749v2
- Date: Fri, 31 Jan 2025 15:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 22:46:12.633646
- Title: Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement   Learning with Provable Convergence
- Title(参考訳): 確率収束型リスク感性分布強化学習のためのポリシーグラディエント手法
- Authors: Minheng Xiao, Xian Yu, Lei Ying, 
- Abstract要約: 本稿では,リスクに敏感なDRLに対して,一般的なコヒーレントリスク対策を用いた新しいポリシー勾配法を提案する。
実用上,ある固定点に支持されたカテゴリ群による任意の分布を近似するカテゴリ分布ポリシー勾配アルゴリズム (GCDP) を設計する。
- 参考スコア(独自算出の注目度): 15.720824593964027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract:   Risk-sensitive reinforcement learning (RL) is crucial for maintaining reliable performance in high-stakes applications. While traditional RL methods aim to learn a point estimate of the random cumulative cost, distributional RL (DRL) seeks to estimate the entire distribution of it, which leads to a unified framework for handling different risk measures. However, developing policy gradient methods for risk-sensitive DRL is inherently more complex as it involves finding the gradient of a probability measure. This paper introduces a new policy gradient method for risk-sensitive DRL with general coherent risk measures, where we provide an analytical form of the probability measure's gradient for any distribution. For practical use, we design a categorical distributional policy gradient algorithm (CDPG) that approximates any distribution by a categorical family supported on some fixed points. We further provide a finite-support optimality guarantee and a finite-iteration convergence guarantee under inexact policy evaluation and gradient estimation. Through experiments on stochastic Cliffwalk and CartPole environments, we illustrate the benefits of considering a risk-sensitive setting in DRL. 
- Abstract(参考訳): リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
従来のRL法は、ランダム累積コストの点推定を学習することを目的としているが、分布RL(DRL)はその分布全体を推定することを目的としており、異なるリスク尺度を扱うための統一的な枠組みが導かれる。
しかし、リスクに敏感なDRLに対する政策勾配法の開発は、確率測度の勾配を見つけることを伴うため、本質的にはより複雑である。
本稿では,一般コヒーレントリスク尺度を用いたリスク感応性DRLのための新しいポリシー勾配法を提案し,各分布に対する確率測度勾配の分析形式を提供する。
実用上,ある固定点に支持されたカテゴリ群による任意の分布を近似するカテゴリ分布ポリシー勾配アルゴリズム (CDPG) を設計する。
さらに、不正確な政策評価および勾配推定の下で、有限支持最適性保証と有限点収束保証を提供する。
確率的クリフウォークとCartPole環境の実験を通じて、DRLにおけるリスク感受性の設定を検討する利点について説明する。
 
      
        関連論文リスト
        - On the Design of KL-Regularized Policy Gradient Algorithms for LLM   Reasoning [50.856589224454055]
 政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
オンライン強化学習環境におけるKL正規化政策勾配法を導出・解析するためのフレームワークである正則化政策勾配(RPG)を提案する。
RPGは、GRPO、REINFORCE++、DAPOといった強力なベースラインと比較して、トレーニングの安定性とパフォーマンスの面で改善あるいは競争力のある結果を示している。
 論文  参考訳(メタデータ) (2025-05-23T06:01:21Z)
- Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced   Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
 金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
 論文  参考訳(メタデータ) (2025-01-03T20:25:41Z)
- Uncertainty-aware Distributional Offline Reinforcement Learning [26.34178581703107]
 オフライン強化学習(RL)は、観測データのみに依存するため、異なる課題を提示する。
本研究では,不確実性と環境の両面に同時に対処する不確実性を考慮したオフラインRL法を提案する。
本手法は,リスク感受性ベンチマークとリスクニュートラルベンチマークの両方で総合評価を行い,その優れた性能を実証した。
 論文  参考訳(メタデータ) (2024-03-26T12:28:04Z)
- Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
  Standard RL [48.1726560631463]
 我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
 論文  参考訳(メタデータ) (2024-03-10T21:45:12Z)
- Provable Risk-Sensitive Distributional Reinforcement Learning with
  General Function Approximation [54.61816424792866]
 本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
 論文  参考訳(メタデータ) (2024-02-28T08:43:18Z)
- Provably Efficient Iterated CVaR Reinforcement Learning with Function
  Approximation and Human Feedback [57.6775169085215]
 リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
 論文  参考訳(メタデータ) (2023-07-06T08:14:54Z)
- Is Risk-Sensitive Reinforcement Learning Properly Resolved? [32.42976780682353]
 そこで本稿では,RSRL問題に対して最適ポリシーに収束可能な新しいアルゴリズムであるトラジェクトリQ-Learning(TQL)を提案する。
新たな学習アーキテクチャに基づいて,さまざまなリスク対応政策を学習するための,さまざまなリスク対策の汎用的かつ実践的な実装を自由に導入できる。
 論文  参考訳(メタデータ) (2023-07-02T11:47:21Z)
- Policy Evaluation in Distributional LQR [70.63903506291383]
 ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
 論文  参考訳(メタデータ) (2023-03-23T20:27:40Z)
- Risk-Sensitive Policy with Distributional Reinforcement Learning [4.523089386111081]
 本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。
リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。
これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
 論文  参考訳(メタデータ) (2022-12-30T14:37:28Z)
- A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
 標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
 論文  参考訳(メタデータ) (2022-08-19T00:55:05Z)
- Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
 リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
 論文  参考訳(メタデータ) (2022-05-10T19:40:52Z)
- Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
 本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
 論文  参考訳(メタデータ) (2022-03-24T03:49:04Z)
- Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
  Globally Optimal Policy [95.98698822755227]
 本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
 論文  参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。