論文の概要: Risk-Sensitive Exponential Actor Critic
- arxiv url: http://arxiv.org/abs/2602.07202v1
- Date: Fri, 06 Feb 2026 21:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.501896
- Title: Risk-Sensitive Exponential Actor Critic
- Title(参考訳): リスク感性指数アクター批判
- Authors: Alonso Granados, Jason Pacheco,
- Abstract要約: リスクに敏感な指数的アクター批判(RSEAC)は,既存のアプローチに比べて数値的に安定な更新をもたらすことを示す。
rsEACは、MuJoCoにおけるリスクに敏感な継続的タスクのバリエーションに挑戦する上で、リスクに敏感なポリシを確実に学習する。
- 参考スコア(独自算出の注目度): 8.650002078377485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free deep reinforcement learning (RL) algorithms have achieved tremendous success on a range of challenging tasks. However, safety concerns remain when these methods are deployed on real-world applications, necessitating risk-aware agents. A common utility for learning such risk-aware agents is the entropic risk measure, but current policy gradient methods optimizing this measure must perform high-variance and numerically unstable updates. As a result, existing risk-sensitive model-free approaches are limited to simple tasks and tabular settings. In this paper, we provide a comprehensive theoretical justification for policy gradient methods on the entropic risk measure, including on- and off-policy gradient theorems for the stochastic and deterministic policy settings. Motivated by theory, we propose risk-sensitive exponential actor-critic (rsEAC), an off-policy model-free approach that incorporates novel procedures to avoid the explicit representation of exponential value functions and their gradients, and optimizes its policy w.r.t the entropic risk measure. We show that rsEAC produces more numerically stable updates compared to existing approaches and reliably learns risk-sensitive policies in challenging risky variants of continuous tasks in MuJoCo.
- Abstract(参考訳): モデルフリーの深層強化学習(RL)アルゴリズムは、様々な課題において大きな成功を収めている。
しかし、これらの手法が現実世界のアプリケーションにデプロイされる際には、安全上の懸念が残る。
このようなリスク対応エージェントを学習するための一般的なユーティリティは、エントロピー的リスク尺度であるが、この尺度を最適化する現在のポリシー勾配法は、高いばらつきと数値的に不安定な更新を行う必要がある。
その結果、既存のリスクに敏感なモデルレスアプローチは、単純なタスクや表の設定に限られている。
本稿では、確率的・決定論的政策設定に対するオン・アンド・オフ・政治的勾配定理を含む、エントロピーリスク尺度に関する政策勾配法に関する包括的な理論的正当性を提供する。
リスクに敏感な指数的アクター批判(RSEAC)は,指数的値関数とその勾配の明示的表現を避けるための新しい手順を取り入れた非政治的モデルフリーアプローチであり,エントロピー的リスク尺度でその政策を最適化する。
rsEACは既存の手法に比べて数値的に安定な更新を行い、MuJoCoにおけるリスクに敏感なタスクに挑戦する上で、リスクに敏感なポリシーを確実に学習することを示す。
関連論文リスト
- Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - Risk-sensitive Actor-Critic with Static Spectral Risk Measures for Online and Offline Reinforcement Learning [4.8342038441006805]
静的スペクトルリスク対策(SRM)の最適化のための新しい枠組みを提案する。
我々のアルゴリズムは、さまざまなドメインにわたるオンラインとオフラインの両方の環境において、既存のリスクに敏感な手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-07-05T04:41:54Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures [17.668631383216233]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
政策グラディエント(PG)法がリスクニュートラルな場合と同じグローバル収束を保証するかどうかは不明だ。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Entropic Risk Constrained Soft-Robust Policy Optimization [12.362670630646805]
モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。
本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-20T23:48:28Z) - Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning [75.17074235764757]
割引無限地平線MDPにおけるリスク・アバース制御の枠組みを提案する。
MVPIは、政策評価方法やリスクニュートラル制御手法を棚から外すためのリスク・アバース制御に投入できる点において、非常に柔軟性がある。
この柔軟性は、リスク中立制御とリスク逆制御のギャップを減らし、新しい拡張MDPの開発によって達成される。
論文 参考訳(メタデータ) (2020-04-22T22:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。