論文の概要: Risk-sensitive reinforcement learning using expectiles, shortfall risk and optimized certainty equivalent risk
- arxiv url: http://arxiv.org/abs/2602.09300v1
- Date: Tue, 10 Feb 2026 00:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.298153
- Title: Risk-sensitive reinforcement learning using expectiles, shortfall risk and optimized certainty equivalent risk
- Title(参考訳): 期待値、不足リスクおよび最適化された確実性等価リスクを用いたリスク感受性強化学習
- Authors: Sumedh Gupte, Shrey Rakeshkumar Patel, Soumen Pachal, Prashanth L. A., Sanjay P. Bhat,
- Abstract要約: 本稿では,リスク対策の3つのファミリーに対応する,リスクに敏感な強化学習アルゴリズムを提案する。
各リスク測度について、有限地平面マルコフ決定過程の文脈で、まずポリシー勾配定理を導出する。
一般的なRLベンチマークの理論的結果を検証するため,数値実験を行った。
- 参考スコア(独自算出の注目度): 7.358503757109041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose risk-sensitive reinforcement learning algorithms catering to three families of risk measures, namely expectiles, utility-based shortfall risk and optimized certainty equivalent risk. For each risk measure, in the context of a finite horizon Markov decision process, we first derive a policy gradient theorem. Second, we propose estimators of the risk-sensitive policy gradient for each of the aforementioned risk measures, and establish $\mathcal{O}\left(1/m\right)$ mean-squared error bounds for our estimators, where $m$ is the number of trajectories. Further, under standard assumptions for policy gradient-type algorithms, we establish smoothness of the risk-sensitive objective, in turn leading to stationary convergence rate bounds for the overall risk-sensitive policy gradient algorithm that we propose. Finally, we conduct numerical experiments to validate the theoretical findings on popular RL benchmarks.
- Abstract(参考訳): 本稿では,リスク対応型強化学習アルゴリズムを提案する。
各リスク測度について、有限地平面マルコフ決定過程の文脈で、まずポリシー勾配定理を導出する。
第2に、上記各リスク対策に対するリスク感受性政策勾配の推定器を提案し、推定器の平均二乗誤差境界を$m$がトラジェクトリ数であるように$\mathcal{O}\left(1/m\right)$に設定する。
さらに、政策勾配型アルゴリズムの標準的な仮定の下で、我々はリスク感受性目標の滑らかさを確立し、その結果、提案する全体的なリスク感受性政策勾配アルゴリズムの定常収束率の境界を導出する。
最後に,RLベンチマークの理論的結果を検証する数値実験を行った。
関連論文リスト
- Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents [44.09686403685058]
本研究の目的は,累積報酬のリスク尺度を最適化する履歴依存政策を学習することである。
楽観主義に基づくメタアルゴリズムと政策勾配に基づくメタアルゴリズムを提案する。
我々は,提案アルゴリズムが概念実証MDPで最適な履歴依存ポリシーを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On the Global Convergence of Risk-Averse Policy Gradient Methods with Expected Conditional Risk Measures [17.668631383216233]
リスクに敏感な強化学習(RL)は、不確実な結果のリスクを制御する一般的なツールとなっている。
政策グラディエント(PG)法がリスクニュートラルな場合と同じグローバル収束を保証するかどうかは不明だ。
論文 参考訳(メタデータ) (2023-01-26T04:35:28Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。