論文の概要: Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity
- arxiv url: http://arxiv.org/abs/2602.03778v1
- Date: Tue, 03 Feb 2026 17:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.609897
- Title: Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity
- Title(参考訳): L-infinity上でのベルマン演算子を用いたCVaR MDPの逆再分布
- Authors: Aneri Muni, Vincent Taboga, Esther Derman, Pierre-Luc Bacon, Erick Delage,
- Abstract要約: 静的条件付きリスクリスク(CVaR)のようなテールエンドのリスク対策は、稀だが破滅的な事態を防止するために安全クリティカルな応用に用いられている。
我々は、離散化された拡張状態に依存するリスク逆値とモデルなしQ-ラーニングアルゴリズムを開発した。
実験により,本アルゴリズムはCVaR感受性ポリシーを学習し,効果的な性能保証トレードオフを実現することができた。
- 参考スコア(独自算出の注目度): 16.835098688159004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tail-end risk measures such as static conditional value-at-risk (CVaR) are used in safety-critical applications to prevent rare, yet catastrophic events. Unlike risk-neutral objectives, the static CVaR of the return depends on entire trajectories without admitting a recursive Bellman decomposition in the underlying Markov decision process. A classical resolution relies on state augmentation with a continuous variable. However, unless restricted to a specialized class of admissible value functions, this formulation induces sparse rewards and degenerate fixed points. In this work, we propose a novel formulation of the static CVaR objective based on augmentation. Our alternative approach leads to a Bellman operator with: (1) dense per-step rewards; (2) contracting properties on the full space of bounded value functions. Building on this theoretical foundation, we develop risk-averse value iteration and model-free Q-learning algorithms that rely on discretized augmented states. We further provide convergence guarantees and approximation error bounds due to discretization. Empirical results demonstrate that our algorithms successfully learn CVaR-sensitive policies and achieve effective performance-safety trade-offs.
- Abstract(参考訳): 静的条件付きリスクリスク(CVaR)のようなテールエンドのリスク対策は、稀だが破滅的な事態を防止するために安全クリティカルな応用に用いられている。
リスクニュートラルな目的とは異なり、リターンの静的CVaRは、マルコフ決定過程において再帰的なベルマン分解を認めることなく全軌道に依存する。
古典的な解決法は連続変数による状態拡張に依存する。
しかし、許容値関数の特殊クラスに制限されない限り、この定式化はスパース報酬を誘導し、固定点を退化させる。
本研究では,拡張に基づく静的CVaR目標の新たな定式化を提案する。
我々の代替アプローチはベルマン作用素に導かれる: (1) ステップ毎の高密度な報酬、(2) 有界値函数の全空間上の縮約性。
この理論の基礎の上に構築され、離散化された拡張状態に依存するリスク-逆値反復とモデルなしQ-ラーニングアルゴリズムを開発する。
さらに、離散化による収束保証と近似誤差境界を提供する。
実験により,本アルゴリズムはCVaR感受性ポリシーを学習し,効果的な性能保証トレードオフを実現することができた。
関連論文リスト
- Robust Bayesian Dynamic Programming for On-policy Risk-sensitive Reinforcement Learning [4.71677151409532]
本稿では,過渡不確実性に対するロバスト性を含むリスク感応性強化学習のための新しい枠組みを提案する。
本フレームワークは,内的リスク対策と外的リスク対策の両方に対して,一般的なコヒーレントリスク対策を許容することにより,既存のRLフレームワークを統一・一般化する。
論文 参考訳(メタデータ) (2025-12-31T03:13:22Z) - Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。
既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。
本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-08T00:22:00Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes [30.95065329164904]
本研究では, 条件値-at-Risk (CVaR) とエントロピー-値-at-Risk (EVaR) の分解が, 離散化レベルに関係なく本質的に最適であることを示す。
リスク・アバースアルゴリズムはハイテイク環境で利用されており,その正しさがより重要になるため,本研究の成果は重要である。
論文 参考訳(メタデータ) (2023-04-24T22:28:20Z) - Learning Dynamical Systems via Koopman Operator Regression in
Reproducing Kernel Hilbert Spaces [52.35063796758121]
動的システムの有限データ軌跡からクープマン作用素を学ぶためのフレームワークを定式化する。
リスクとクープマン作用素のスペクトル分解の推定を関連付ける。
以上の結果から,RRRは他の広く用いられている推定値よりも有益である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T14:57:48Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。