論文の概要: Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR
- arxiv url: http://arxiv.org/abs/2302.03201v2
- Date: Wed, 24 May 2023 21:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 22:50:45.414487
- Title: Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR
- Title(参考訳): CVaRを用いた極小最適リスク感性強化学習
- Authors: Kaiwen Wang and Nathan Kallus and Wen Sun
- Abstract要約: 本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
- 参考スコア(独自算出の注目度): 58.40575099910538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study risk-sensitive Reinforcement Learning (RL), focusing
on the objective of Conditional Value at Risk (CVaR) with risk tolerance
$\tau$. Starting with multi-arm bandits (MABs), we show the minimax CVaR regret
rate is $\Omega(\sqrt{\tau^{-1}AK})$, where $A$ is the number of actions and
$K$ is the number of episodes, and that it is achieved by an Upper Confidence
Bound algorithm with a novel Bernstein bonus. For online RL in tabular Markov
Decision Processes (MDPs), we show a minimax regret lower bound of
$\Omega(\sqrt{\tau^{-1}SAK})$ (with normalized cumulative rewards), where $S$
is the number of states, and we propose a novel bonus-driven Value Iteration
procedure. We show that our algorithm achieves the optimal regret of
$\widetilde O(\sqrt{\tau^{-1}SAK})$ under a continuity assumption and in
general attains a near-optimal regret of $\widetilde O(\tau^{-1}\sqrt{SAK})$,
which is minimax-optimal for constant $\tau$. This improves on the best
available bounds. By discretizing rewards appropriately, our algorithms are
computationally efficient.
- Abstract(参考訳): 本稿では,リスクに敏感な強化学習(RL)について検討し,リスク許容度が$\tau$の条件値(CVaR)の目的に着目した。
マルチアームバンディット(MAB)から、ミニマックスCVaR後悔率は$\Omega(\sqrt{\tau^{-1}AK})$で、$A$はアクションの数、$K$はエピソード数、そして新しいバーンスタインボーナスを持つアッパー信頼境界アルゴリズムによって達成されることを示す。
表型マルコフ決定過程(英語版)(mdps)におけるオンラインrlでは、最小の後悔値が$\omega(\sqrt{\tau^{-1}sak})$(正規化累積報酬付き)であり、ここで$s$は状態数であり、新しいボーナス駆動価値反復手順を提案する。
我々のアルゴリズムは連続性仮定の下で$\widetilde O(\sqrt{\tau^{-1}SAK})$の最適後悔を達成し、一般に、定数$\tau$に対して最小最適である$\widetilde O(\tau^{-1}\sqrt{SAK})$のほぼ最適後悔を実現する。
これにより、最善の限界が改善される。
報酬を適切に識別することで、アルゴリズムは計算効率が良い。
関連論文リスト
- Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - Low-Rank Bandits via Tight Two-to-Infinity Singular Subspace Recovery [45.601316850669406]
本稿では,政策評価,最良政策識別,後悔の最小化のための効率的なアルゴリズムを提案する。
政策評価と最良の政策識別のために,我々のアルゴリズムは最小限に最適であることを示す。
提案アルゴリズムは、まずスペクトル法を利用して、低ランク報酬行列の左特異部分空間と右特異部分空間を推定する。
論文 参考訳(メタデータ) (2024-02-24T06:36:08Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Context-lumpable stochastic bandits [49.024050919419366]
我々は、$S$コンテキストと$K$アクションによる文脈的盗賊問題を考える。
我々は,最大$widetilde O(r (S +K )/epsilon2)$サンプルを用いて,$epsilon$-optimal Policyを出力するアルゴリズムを提案する。
後悔の設定では、T$までの累積後悔を$widetilde O(sqrtr3(S+K)T)$で束縛するアルゴリズムを与える。
論文 参考訳(メタデータ) (2023-06-22T17:20:30Z) - Instance-optimal PAC Algorithms for Contextual Bandits [20.176752818200438]
この作業では、$(epsilon,delta)$-$textitPAC$設定における帯域幅の問題に焦点を当てます。
最良腕識別のための最小限の後悔最小化とインスタンス依存のPACを同時に行うアルゴリズムは存在しないことを示す。
論文 参考訳(メタデータ) (2022-07-05T23:19:43Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff
in Regret [115.85354306623368]
本研究では,未知の遷移カーネルを持つマルコフ決定過程におけるリスク感応性強化学習について検討する。
確率的に効率的なモデルレスアルゴリズムとして、リスク感性価値反復(RSVI)とリスク感性Q-ラーニング(RSQ)を提案する。
RSVIが $tildeObig(lambda(|beta| H2) cdot sqrtH3 S2AT big) に達したことを証明しています。
論文 参考訳(メタデータ) (2020-06-22T19:28:26Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。