論文の概要: Measures of Variability for Risk-averse Policy Gradient
- arxiv url: http://arxiv.org/abs/2504.11412v1
- Date: Tue, 15 Apr 2025 17:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:22.207306
- Title: Measures of Variability for Risk-averse Policy Gradient
- Title(参考訳): リスク・リバース政策グラディエントに対する可変性対策
- Authors: Yudong Luo, Yangchen Pan, Jiaqi Tan, Pascal Poupart,
- Abstract要約: リスク逆強化学習(RARL)における9つの共通変数尺度について検討する。
このうち、4つの指標は以前RARLで研究されなかった。
我々の実証研究は、分散ベースのメトリクスが不安定なポリシー更新につながることを明らかにしている。
- 参考スコア(独自算出の注目度): 26.293988407069293
- License:
- Abstract: Risk-averse reinforcement learning (RARL) is critical for decision-making under uncertainty, which is especially valuable in high-stake applications. However, most existing works focus on risk measures, e.g., conditional value-at-risk (CVaR), while measures of variability remain underexplored. In this paper, we comprehensively study nine common measures of variability, namely Variance, Gini Deviation, Mean Deviation, Mean-Median Deviation, Standard Deviation, Inter-Quantile Range, CVaR Deviation, Semi_Variance, and Semi_Standard Deviation. Among them, four metrics have not been previously studied in RARL. We derive policy gradient formulas for these unstudied metrics, improve gradient estimation for Gini Deviation, analyze their gradient properties, and incorporate them with the REINFORCE and PPO frameworks to penalize the dispersion of returns. Our empirical study reveals that variance-based metrics lead to unstable policy updates. In contrast, CVaR Deviation and Gini Deviation show consistent performance across different randomness and evaluation domains, achieving high returns while effectively learning risk-averse policies. Mean Deviation and Semi_Standard Deviation are also competitive across different scenarios. This work provides a comprehensive overview of variability measures in RARL, offering practical insights for risk-aware decision-making and guiding future research on risk metrics and RARL algorithms.
- Abstract(参考訳): リスク・アバース強化学習(RARL)は不確実性の下での意思決定において重要である。
しかし、既存のほとんどの研究はリスク対策(例えば、条件付きバリュー・アット・リスク(CVaR))に重点を置いている。
本稿では, 変数, ジーニ偏差, 平均偏差, 平均媒介偏差, 標準偏差, 標準偏差, CVaR偏差, 半偏差, 半偏差, 半偏差の9つの共通測度を総合的に検討する。
このうち、4つの指標は以前RARLで研究されなかった。
我々は、これらの未調査指標に対するポリシー勾配式を導出し、ジニ偏差の勾配推定を改善し、それらの勾配特性を分析し、それらをREINFORCEおよびPPOフレームワークに組み込んで返却の分散をペナルティ化する。
我々の実証研究は、分散ベースのメトリクスが不安定なポリシー更新につながることを明らかにしている。
対照的に、CVaR DeviationとGini Deviationは、異なるランダム性および評価領域間で一貫した性能を示し、リスク回避ポリシーを効果的に学習しながら高いリターンを達成する。
Mean DeviationとSemi_Standard Deviationも、さまざまなシナリオで競合している。
この研究は、リスク対応意思決定のための実践的な洞察を提供し、リスクメトリクスとRARLアルゴリズムに関する将来の研究を導く、RARLにおける可変性対策の包括的概要を提供する。
関連論文リスト
- Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning [4.8342038441006805]
金融、ヘルスケア、ロボティクスといった分野では、最悪のシナリオを管理することが重要です。
分散強化学習(DRL)は、リスク感受性を意思決定プロセスに組み込む自然な枠組みを提供する。
より広範な静的スペクトルリスク対策(SRM)を最適化する収束保証付きDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-03T20:25:41Z) - Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
本稿では,リスクに敏感なDRLに対して,一般的なコヒーレントリスク対策を用いた新しいポリシー勾配法を提案する。
実用上,ある固定点に支持されたカテゴリ群による任意の分布を近似するカテゴリ分布ポリシー勾配アルゴリズム (GCDP) を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - An Alternative to Variance: Gini Deviation for Risk-averse Policy
Gradient [35.01235012813407]
政策の回帰の分散を制限することは、リスク回避強化学習において一般的な選択である。
最近の手法では、プロキシとしてのステップごとの報酬分散が制限されている。
代替リスク尺度であるGini deviation を代替として用いることを提案する。
論文 参考訳(メタデータ) (2023-07-17T22:08:27Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。