論文の概要: Revisiting Simple Regret Minimization in Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2210.16913v1
- Date: Sun, 30 Oct 2022 18:31:03 GMT
- Title: Revisiting Simple Regret Minimization in Multi-Armed Bandits
- Title(参考訳): 多腕バンディットにおける単純後悔最小化の再検討
- Authors: Yao Zhao, Connor Stephens, Csaba Szepesv\'ari, Kwang-Sung Jun
- Abstract要約: 単純な後悔は、最高の腕や$epsilon$-good腕を欠く確率よりもあまり一般的ではない。
本稿では,データ豊かさ (Tge n$) とデータ貧弱さ (T le n$) の両面において,単純な後悔の上限を改良した。
- 参考スコア(独自算出の注目度): 33.88679679593314
- Abstract: Simple regret is a natural and parameter-free performance criterion for
identifying a good arm in multi-armed bandits yet is less popular than the
probability of missing the best arm or an $\epsilon$-good arm, perhaps due to
lack of easy ways to characterize it. In this paper, we achieve improved simple
regret upper bounds for both data-rich ($T\ge n$) and data-poor regime ($T \le
n$) where $n$ is the number of arms and $T$ is the number of samples. At its
heart is an improved analysis of the well-known Sequential Halving (SH)
algorithm that bounds the probability of returning an arm whose mean reward is
not within $\epsilon$ from the best (i.e., not $\epsilon$-good) for any choice
of $\epsilon>0$, although $\epsilon$ is not an input to SH. We show that this
directly implies an optimal simple regret bound of $\mathcal{O}(\sqrt{n/T})$.
Furthermore, our upper bound gets smaller as a function of the number of
$\epsilon$-good arms. This results in an accelerated rate for the
$(\epsilon,\delta)$-PAC criterion, which closes the gap between the upper and
lower bounds in prior art. For the more challenging data-poor regime, we
propose Bracketing SH (BSH) that enjoys the same improvement even without
sampling each arm at least once. Our empirical study shows that BSH outperforms
existing methods on real-world tasks.
- Abstract(参考訳): 単純な後悔は、多腕の包帯で良い腕を特定するための自然でパラメータなしのパフォーマンス基準であり、最高の腕や$\epsilon$-good腕を欠く確率よりもあまり人気がない。
本稿では,n$ がアーム数,t$ がサンプル数であるデータリッチ (t\ge n$) とデータプーアレジーム (t \le n$) の両方に対して,単純な後悔の上限値の改善を実現する。
これは直接的に、$\mathcal{o}(\sqrt{n/t})$ の最適単純後悔束を意味する。
さらに、上限は$\epsilon$-good armsの関数として小さくなります。
この結果、$(\epsilon,\delta)$-pac の基準が加速され、前技術の上限と下限の間のギャップが縮まる。
