論文の概要: From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses
- arxiv url: http://arxiv.org/abs/2205.07704v1
- Date: Mon, 16 May 2022 14:13:06 GMT
- Title: From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses
- Title(参考訳): DirichletからRubinへ - ボーナスのないRLでの最適探索
- Authors: Daniil Tiapkin, Denis Belomestny, Eric Moulines, Alexey Naumov, Sergey
Samsonov, Yunhao Tang, Michal Valko, Pierre Menard
- Abstract要約: Bayes-UCBVI は Kaufmann らによる Bayes-UCB アルゴリズムの自然な拡張である。
私たちは、$widetildeO(sqrtH3SAT)$ ここで、$H$はひとつのエピソードの長さ、$S$は状態の数、$A$はアクションの数、$T$はエピソードの数で、$Omega(sqrtH3SAT)$の低いバウンドの$Omega(sqrtH3SAT)$と一致する。
- 参考スコア(独自算出の注目度): 47.6564858125342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Bayes-UCBVI algorithm for reinforcement learning in tabular,
stage-dependent, episodic Markov decision process: a natural extension of the
Bayes-UCB algorithm by Kaufmann et al. (2012) for multi-armed bandits. Our
method uses the quantile of a Q-value function posterior as upper confidence
bound on the optimal Q-value function. For Bayes-UCBVI, we prove a regret bound
of order $\widetilde{O}(\sqrt{H^3SAT})$ where $H$ is the length of one episode,
$S$ is the number of states, $A$ the number of actions, $T$ the number of
episodes, that matches the lower-bound of $\Omega(\sqrt{H^3SAT})$ up to
poly-$\log$ terms in $H,S,A,T$ for a large enough $T$. To the best of our
knowledge, this is the first algorithm that obtains an optimal dependence on
the horizon $H$ (and $S$) without the need for an involved Bernstein-like bonus
or noise. Crucial to our analysis is a new fine-grained anti-concentration
bound for a weighted Dirichlet sum that can be of independent interest. We then
explain how Bayes-UCBVI can be easily extended beyond the tabular setting,
exhibiting a strong link between our algorithm and Bayesian bootstrap (Rubin,
- Abstract(参考訳): 我々は,多腕包帯に対するBayes-UCBアルゴリズムの自然な拡張として,表層・ステージ依存・エピソードマルコフ決定過程における強化学習のためのBayes-UCBVIアルゴリズムを提案する。
Bayes-UCBVI の場合、$\widetilde{O}(\sqrt{H^3SAT})$ ここで$H$はひとつのエピソードの長さ、$S$は状態の数、$A$はアクションの数、$T$は$\Omega(\sqrt{H^3SAT})$の低いバウンドの$\Omega(\sqrt{H^3SAT})$と一致する$H,S,A,T$は十分大きな$T$である。
我々の知る限りでは、このアルゴリズムはバーンスタインのようなボーナスやノイズを必要とせずに、horizon $h$(および$s$)の最適依存を得る最初のアルゴリズムである。
次に、ベイズ-UCBVI が表の設定を超えて容易に拡張可能であることを説明し、我々のアルゴリズムとベイズブートストラップの強い関係を示す(Rubin, 1981)。
