論文の概要: Reinforcement Learning from Probabilistic Forecasts for Safe Decision-Making via Conditional Value-at-Risk Planning
- arxiv url: http://arxiv.org/abs/2510.08226v1
- Date: Thu, 09 Oct 2025 13:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.106063
- Title: Reinforcement Learning from Probabilistic Forecasts for Safe Decision-Making via Conditional Value-at-Risk Planning
- Title(参考訳): 条件付きバリュー・アット・リスク計画による安全な意思決定のための確率的予測からの強化学習
- Authors: Michal Koren, Or Peretz, Tai Dinh, Philip S. Yu,
- Abstract要約: 本稿では,ベイズ予測,後方サンプリング強化学習,計画とを結合した統一的枠組みである不確実性認識マルコフ決定プロセス(UAMDP)を提案する。
構造的不確実性と経済のボラティリティを特徴とする2つのドメインの高頻度株式取引と小売在庫管理において,UAMDPを評価した。
- 参考スコア(独自算出の注目度): 41.52380204321823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential decisions in volatile, high-stakes settings require more than maximizing expected return; they require principled uncertainty management. This paper presents the Uncertainty-Aware Markov Decision Process (UAMDP), a unified framework that couples Bayesian forecasting, posterior-sampling reinforcement learning, and planning under a conditional value-at-risk (CVaR) constraint. In a closed loop, the agent updates its beliefs over latent dynamics, samples plausible futures via Thompson sampling, and optimizes policies subject to preset risk tolerances. We establish regret bounds that converge to the Bayes-optimal benchmark under standard regularity conditions. We evaluate UAMDP in two domains-high-frequency equity trading and retail inventory control-both marked by structural uncertainty and economic volatility. Relative to strong deep learning baselines, UAMDP improves long-horizon forecasting accuracy (RMSE decreases by up to 25\% and sMAPE by 32\%), and these gains translate into economic performance: the trading Sharpe ratio rises from 1.54 to 1.74 while maximum drawdown is roughly halved. These results show that integrating calibrated probabilistic modeling, exploration aligned with posterior uncertainty, and risk-aware control yields a robust, generalizable approach to safer and more profitable sequential decision-making.
- Abstract(参考訳): 揮発性でハイテイクな設定における逐次的な決定は、期待されるリターンを最大化すること以上のものを必要とし、原則化された不確実性管理を必要とする。
本稿では,ベイズ予測,後サンプリング強化学習,条件付き値付きリスク(CVaR)制約下での計画とを結合した統一的枠組みである不確実性認識マルコフ決定プロセス(UAMDP)を提案する。
クローズドループでは、エージェントは潜伏力学に関する信念を更新し、トンプソンサンプリングを通じて実証可能な未来をサンプリングし、事前設定されたリスク許容度に基づくポリシーを最適化する。
標準正則条件下でベイズ最適ベンチマークに収束する後悔境界を確立する。
構造的不確実性と経済のボラティリティを特徴とする2つのドメインの高頻度株式取引と小売在庫管理において,UAMDPを評価した。
強い深層学習ベースラインとは対照的に、UAMDPは長距離予測精度(RMSEは25\%まで低下し、sMAPEは32\%まで低下)を改善し、これらの利得は経済的なパフォーマンスに変換される。
これらの結果は、調整された確率的モデリング、後続の不確実性に沿った探索、リスク認識制御を統合することで、より安全でより収益性の高いシーケンシャルな意思決定のための堅牢で一般化可能なアプローチが得られることを示している。
関連論文リスト
- Isotonic Quantile Regression Averaging for uncertainty quantification of electricity price forecasts [0.0]
アイソトニック量子回帰平均化(iQRA)と呼ばれる点予測のアンサンブルから確率予測を生成する新しい手法を提案する。
iQRAは信頼性とシャープさの両方の観点から,最先端のポストプロセッシング手法よりも一貫して優れていることを示す。
精度の高い予測間隔を複数の信頼レベルにわたって生成し、全てのベンチマーク手法に優れた信頼性を提供する。
論文 参考訳(メタデータ) (2025-07-20T18:28:39Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Diffusion Variational Autoencoder for Tackling Stochasticity in
Multi-Step Regression Stock Price Prediction [54.21695754082441]
長期的地平線上での多段階の株価予測は、ボラティリティの予測に不可欠である。
多段階の株価予測に対する現在の解決策は、主に単一段階の分類に基づく予測のために設計されている。
深層階層型変分オートコーダ(VAE)と拡散確率的手法を組み合わせてセック2seqの株価予測を行う。
本モデルでは, 予測精度と分散性の観点から, 最先端の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T16:21:15Z) - Reinforcement Learning of Risk-Constrained Policies in Markov Decision
Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。
破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。
我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-27T13:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。