論文の概要: Online Bayesian Risk-Averse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.14077v1
- Date: Wed, 17 Sep 2025 15:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.900014
- Title: Online Bayesian Risk-Averse Reinforcement Learning
- Title(参考訳): オンラインベイズリスク-逆強化学習
- Authors: Yuhao Wang, Enlu Zhou,
- Abstract要約: 強化学習(RL)におけるベイズ的リスク・アバースの定式化について検討する。
一般RL問題とCMAB問題の両方に対して,後方サンプリングを用いた2つの手順を提案する。
我々は,RLとCMABの設定の両面において,従来の後悔として定義されている,サブ線形後悔境界を確立する。
- 参考スコア(独自算出の注目度): 9.492128535779289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the Bayesian risk-averse formulation in reinforcement learning (RL). To address the epistemic uncertainty due to a lack of data, we adopt the Bayesian Risk Markov Decision Process (BRMDP) to account for the parameter uncertainty of the unknown underlying model. We derive the asymptotic normality that characterizes the difference between the Bayesian risk value function and the original value function under the true unknown distribution. The results indicate that the Bayesian risk-averse approach tends to pessimistically underestimate the original value function. This discrepancy increases with stronger risk aversion and decreases as more data become available. We then utilize this adaptive property in the setting of online RL as well as online contextual multi-arm bandits (CMAB), a special case of online RL. We provide two procedures using posterior sampling for both the general RL problem and the CMAB problem. We establish a sub-linear regret bound, with the regret defined as the conventional regret for both the RL and CMAB settings. Additionally, we establish a sub-linear regret bound for the CMAB setting with the regret defined as the Bayesian risk regret. Finally, we conduct numerical experiments to demonstrate the effectiveness of the proposed algorithm in addressing epistemic uncertainty and verifying the theoretical properties.
- Abstract(参考訳): 本稿では,強化学習(RL)におけるベイズ的リスク・アバースの定式化について検討する。
データ不足によるてんかんの不確実性に対処するために、未知の基盤モデルのパラメータの不確実性を考慮したベイズリスクマルコフ決定プロセス(BRMDP)を採用する。
真の未知分布の下でベイズリスク値関数と原値関数との差を特徴付ける漸近正規性(英語版)を導出する。
その結果、ベイズ的リスク-逆アプローチは、悲観的に元の値関数を過小評価する傾向があることが示唆された。
この不一致は、リスク回避が強くなり、より多くのデータが利用可能になるにつれて減少する。
次に、オンラインRLの設定において、この適応性と、オンラインRLの特殊なケースであるオンラインコンテキストマルチアームバンディット(CMAB)を利用する。
一般RL問題とCMAB問題の両方に対して,後方サンプリングを用いた2つの手順を提案する。
我々は,RLとCMABの設定の両面において,従来の後悔として定義されている,サブ線形後悔境界を確立する。
さらに、我々は、ベイズリスクの後悔として定義された後悔と共に、CMAB設定に対するサブ線形後悔を確立する。
最後に, 疫学的な不確実性に対処し, 理論的性質を検証するために, 提案アルゴリズムの有効性を示す数値実験を行った。
関連論文リスト
- Continuous-time Risk-sensitive Reinforcement Learning via Quadratic Variation Penalty [5.710971447109951]
本稿では,連続時間リスク感応性強化学習(RL)について検討する。
従来の政策勾配表現は2次変動の非線形性に起因するリスク感受性問題には不十分である。
本稿では,メルトンの投資問題に対する提案アルゴリズムの収束性を証明し,学習過程の挙動に対する温度パラメータの影響を定量化する。
論文 参考訳(メタデータ) (2024-04-19T03:05:41Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Risk-Averse Bayes-Adaptive Reinforcement Learning [3.5289688061934963]
ベイズ適応マルコフ決定過程(MDP)における総リターンの条件値(CVaR)を最適化する問題を提起する。
この設定でCVaRを最適化する政策は、MDPの事前分布によるパラメトリック不確実性と、MDPの固有性による内部不確実性の両方に反するものである。
我々の実験は,本手法がこの問題に対するベースラインアプローチより著しく優れていることを示した。
論文 参考訳(メタデータ) (2021-02-10T22:34:33Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。