論文の概要: Actor-Critic Algorithm for Dynamic Expectile and CVaR
- arxiv url: http://arxiv.org/abs/2605.07857v1
- Date: Fri, 08 May 2026 15:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.15052
- Title: Actor-Critic Algorithm for Dynamic Expectile and CVaR
- Title(参考訳): Actor-Critic Algorithm for Dynamic expectile and CVaR (特集:バイオサイバネティックスとバイオサイバネティックス)
- Authors: Yudong Luo, Erick Delage,
- Abstract要約: 本稿では,ソフトマックス政策パラメータ化の下での遷移摂動を伴わない代理政策勾配を提案する。
また,動的期待値と条件付きリスク値のモデルフリー値学習手法を開発した。
- 参考スコア(独自算出の注目度): 10.868006419885601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing dynamic risk with stochastic policies is challenging in both policy updates and value learning. The former typically requires transition perturbation, while the latter may rely on model-based approaches. To address these challenges, we propose a surrogate policy gradient without transition perturbation under softmax policy parameterization. We further develop model-free value learning methods for dynamic expectile and conditional value-at-risk by leveraging elicitability. Finally, inspired by Expected SARSA and Expected Policy Gradient, a model-free off-policy actor-critic algorithm is constructed. Empirical results in domains with verifiable risk-averse behavior show that our algorithm can learn risk-averse policy and consistently outperforms other existing methods.
- Abstract(参考訳): 確率的ポリシによる動的リスクの最適化は、ポリシ更新とバリューラーニングの両方において難しい。
前者は通常遷移摂動を必要とするが、後者はモデルに基づくアプローチに依存することがある。
これらの課題に対処するために、ソフトマックスポリシーパラメータ化の下で遷移摂動を伴わない代理政策勾配を提案する。
提案手法により,動的期待値と条件付きリスク値のモデルフリー値学習法をさらに発展させる。
最後に、期待されたSARSAと期待されたポリシーグラディエントにインスパイアされ、モデルなしの非政治的アクター批判アルゴリズムが構築される。
検証可能なリスク逆挙動を持つ領域における実証的な結果は、我々のアルゴリズムがリスク逆ポリシーを学習し、既存の手法を一貫して上回ることを示す。
関連論文リスト
- Risk-Sensitive Exponential Actor Critic [8.650002078377485]
リスクに敏感な指数的アクター批判(RSEAC)は,既存のアプローチに比べて数値的に安定な更新をもたらすことを示す。
rsEACは、MuJoCoにおけるリスクに敏感な継続的タスクのバリエーションに挑戦する上で、リスクに敏感なポリシを確実に学習する。
論文 参考訳(メタデータ) (2026-02-06T21:23:43Z) - Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。
我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文 参考訳(メタデータ) (2021-12-26T16:41:05Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。