#### 論文の概要: Variance-Aware Confidence Set: Variance-Dependent Bound for Linear Bandits and Horizon-Free Bound for Linear Mixture MDP

• arxiv url: http://arxiv.org/abs/2101.12745v2
• Date: Fri, 19 Feb 2021 15:46:46 GMT
• Title: Variance-Aware Confidence Set: Variance-Dependent Bound for Linear Bandits and Horizon-Free Bound for Linear Mixture MDP
• Title（参考訳）: 可変認識信頼セット:線形帯域に対する可変依存境界と線形混合MDPにおける水平自由境界
• Authors: Zihan Zhang, Jiaqi Yang, Xiangyang Ji, Simon S. Du
• Abstract要約: 線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。 線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。 線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
• Abstract: We show how to construct variance-aware confidence sets for linear bandits and linear mixture Markov Decision Process (MDP). Our method yields the following new regret bounds: * For linear bandits, we obtain an $\widetilde{O}(\mathrm{poly}(d)\sqrt{1 + \sum_{i=1}^{K}\sigma_i^2})$ regret bound, where $d$ is the feature dimension, $K$ is the number of rounds, and $\sigma_i^2$ is the (unknown) variance of the reward at the $i$-th round. This is the first regret bound that only scales with the variance and the dimension, with no explicit polynomial dependency on $K$. * For linear mixture MDP, we obtain an $\widetilde{O}(\mathrm{poly}(d, \log H)\sqrt{K})$ regret bound, where $d$ is the number of base models, $K$ is the number of episodes, and $H$ is the planning horizon. This is the first regret bound that only scales logarithmically with $H$ in the reinforcement learning with linear function approximation setting, thus exponentially improving existing results. Our methods utilize three novel ideas that may be of independent interest: 1) applications of the peeling techniques to the norm of input and the magnitude of variance, 2) a recursion-based approach to estimate the variance, and 3) a convex potential lemma that somewhat generalizes the seminal elliptical potential lemma.
• Abstract（参考訳）: 本稿では,線形バンドイットと線形混合マルコフ決定過程(mdp)に対する分散認識信頼集合の構成法を示す。 線形包帯の場合、$\widetilde{O}(\mathrm{poly}(d)\sqrt{1 + \sum_{i=1}^{K}\sigma_i^2})$ regret bound, where $d$ is the feature dimension, $K$ is the number of rounds, $\sigma_i^2$ is the (unknown) variance of the reward at the $i-th round。 これは、$K$に明示的な多項式依存を持たず、分散と次元でしかスケールしない最初の後悔境界である。 * 線形混合 mdp に対して、$\widetilde{o}(\mathrm{poly}(d, \log h)\sqrt{k})$regret bound、ただし$d$は基本モデルの数、$k$はエピソード数、$h$は計画地平線である。 これは、線形関数近似設定による強化学習でh$で対数的にしかスケールしない最初の後悔の限界であり、既存の結果が指数関数的に改善される。 本手法は, 1 入力のノルムと分散の大きさに対する剥離法の適用, 2) 分散を推定するための再帰的アプローチ, 3) 半楕円的ポテンシャル補題を幾分一般化した凸ポテンシャル補題の3つの新しいアイデアを用いる。

