論文の概要: Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents
- arxiv url: http://arxiv.org/abs/2301.12601v2
- Date: Thu, 8 Jun 2023 07:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:39:48.754487
- Title: Regret Bounds for Markov Decision Processes with Recursive Optimized
Certainty Equivalents
- Title(参考訳): 再帰的最適化された等価性を持つマルコフ決定過程の後悔境界
- Authors: Wenhao Xu, Xuefeng Gao, Xuedong He
- Abstract要約: 本稿では,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼度境界に基づく効率的な学習アルゴリズムを設計する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
- 参考スコア(独自算出の注目度): 3.8980564330208662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimized certainty equivalent (OCE) is a family of risk measures that
cover important examples such as entropic risk, conditional value-at-risk and
mean-variance models. In this paper, we propose a new episodic risk-sensitive
reinforcement learning formulation based on tabular Markov decision processes
with recursive OCEs. We design an efficient learning algorithm for this problem
based on value iteration and upper confidence bound. We derive an upper bound
on the regret of the proposed algorithm, and also establish a minimax lower
bound. Our bounds show that the regret rate achieved by our proposed algorithm
has optimal dependence on the number of episodes and the number of actions.
- Abstract(参考訳): 最適化された確実性等価(OCE)は、エントロピーリスク、条件付き値-リスク、平均分散モデルなどの重要な例をカバーするリスク尺度のファミリーである。
本稿では,再帰的OCEを用いた表在的マルコフ決定過程に基づく,新しいエピソード型リスク感応型強化学習法を提案する。
本研究では,値反復と高信頼境界に基づく効率的な学習アルゴリズムを設計する。
提案アルゴリズムの残差に基づいて上界を導出するとともに,ミニマックス下界を確立する。
我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Risk-aware linear bandits with convex loss [0.0]
提案手法は, 線形帯域幅の一般化に類似した, 最適リスク認識動作を学習するための楽観的 UCB アルゴリズムを提案する。
このアプローチではアルゴリズムの各ラウンドで凸問題を解く必要があり、オンライン勾配降下法によって得られる近似解のみを許すことで緩和することができる。
論文 参考訳(メタデータ) (2022-09-15T09:09:53Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Risk-aware Stochastic Shortest Path [0.0]
マルコフ決定過程(MDP)における最短経路(SSP)に対するリスク認識制御の問題点について検討する。
本稿では,確立されたリスク尺度である条件付きリスク(CVaR)を最適化する。
論文 参考訳(メタデータ) (2022-03-03T10:59:54Z) - A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。
本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-22T17:26:28Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Constrained Risk-Averse Markov Decision Processes [18.467950783426947]
リスク目標と制約を動的に整合させたマルコフ決定プロセスのポリシー設計の問題点を考察する。
制約付きリスク-逆問題より低いバウンドのマルコフポリシーを最適化した手法を提案する。
これらの結果から, 制約付きMDPの線形プログラムを, 総割引コストと制約付きで一般化できることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T06:12:11Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning Bounds for Risk-sensitive Learning [86.50262971918276]
リスクに敏感な学習では、損失のリスク・アバース(またはリスク・シーキング)を最小化する仮説を見つけることを目的としている。
最適化された確実性等価性によって最適性を記述するリスク感応学習スキームの一般化特性について検討する。
論文 参考訳(メタデータ) (2020-06-15T05:25:02Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。