論文の概要: Robust Bayesian Dynamic Programming for On-policy Risk-sensitive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.24580v1
- Date: Wed, 31 Dec 2025 03:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.548363
- Title: Robust Bayesian Dynamic Programming for On-policy Risk-sensitive Reinforcement Learning
- Title(参考訳): 政治リスクに敏感な強化学習のためのロバストベイズ動的プログラミング
- Authors: Shanyu Han, Yangbo He, Yang Liu,
- Abstract要約: 本稿では,過渡不確実性に対するロバスト性を含むリスク感応性強化学習のための新しい枠組みを提案する。
本フレームワークは,内的リスク対策と外的リスク対策の両方に対して,一般的なコヒーレントリスク対策を許容することにより,既存のRLフレームワークを統一・一般化する。
- 参考スコア(独自算出の注目度): 4.71677151409532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for risk-sensitive reinforcement learning (RSRL) that incorporates robustness against transition uncertainty. We define two distinct yet coupled risk measures: an inner risk measure addressing state and cost randomness and an outer risk measure capturing transition dynamics uncertainty. Our framework unifies and generalizes most existing RL frameworks by permitting general coherent risk measures for both inner and outer risk measures. Within this framework, we construct a risk-sensitive robust Markov decision process (RSRMDP), derive its Bellman equation, and provide error analysis under a given posterior distribution. We further develop a Bayesian Dynamic Programming (Bayesian DP) algorithm that alternates between posterior updates and value iteration. The approach employs an estimator for the risk-based Bellman operator that combines Monte Carlo sampling with convex optimization, for which we prove strong consistency guarantees. Furthermore, we demonstrate that the algorithm converges to a near-optimal policy in the training environment and analyze both the sample complexity and the computational complexity under the Dirichlet posterior and CVaR. Finally, we validate our approach through two numerical experiments. The results exhibit excellent convergence properties while providing intuitive demonstrations of its advantages in both risk-sensitivity and robustness. Empirically, we further demonstrate the advantages of the proposed algorithm through an application on option hedging.
- Abstract(参考訳): 本稿では,過渡不確実性に対するロバスト性を考慮したリスク感応性強化学習(RSRL)の枠組みを提案する。
我々は、状態とコストランダム性に対処する内的リスク尺度と、遷移ダイナミクスの不確実性を捉える外的リスク尺度の2つの異なる結合リスク尺度を定義した。
本フレームワークは,内的リスク対策と外的リスク対策の両方に対して,一般的なコヒーレントリスク対策を許容することにより,既存のRLフレームワークを統一・一般化する。
本研究では,リスクに敏感なロバストなマルコフ決定プロセス (RSRMDP) を構築し,ベルマン方程式を導出し,所定の後続分布下での誤差解析を行う。
さらに,後続更新と値反復を交互に行うベイズ動的プログラミング (Bayesian DP) アルゴリズムを開発した。
このアプローチは、モンテカルロサンプリングと凸最適化を組み合わせたリスクベースのベルマン作用素に対する推定器を用いて、強い整合性を保証する。
さらに,本アルゴリズムはトレーニング環境における準最適ポリシに収束し,ディリクレ後部およびCVaRの下でのサンプル複雑性と計算複雑性の両方を解析することを示した。
最後に,2つの数値実験によるアプローチを検証する。
その結果, リスク感度とロバスト性の両方において, 優れた収束特性を示しながら, その利点を直感的に示すことができた。
実験により,提案アルゴリズムの利点を,オプションヘッジの応用を通じてさらに実証する。
関連論文リスト
- Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-07T16:31:42Z) - Risk-Averse Certification of Bayesian Neural Networks [70.44969603471903]
本稿では,RAC-BNNと呼ばれるベイズニューラルネットワークに対するリスク・アバース認証フレームワークを提案する。
提案手法はサンプリングと最適化を利用して,BNNの出力集合の音響近似を計算する。
我々は,RAC-BNNを回帰および分類ベンチマークで検証し,その性能を最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-11-29T14:22:51Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。