論文の概要: Revisiting Simple Regret Minimization in Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2210.16913v1
- Date: Sun, 30 Oct 2022 18:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:11:27.656494
- Title: Revisiting Simple Regret Minimization in Multi-Armed Bandits
- Title(参考訳): 多腕バンディットにおける単純後悔最小化の再検討
- Authors: Yao Zhao, Connor Stephens, Csaba Szepesv\'ari, Kwang-Sung Jun
- Abstract要約: 単純な後悔は、最高の腕や$epsilon$-good腕を欠く確率よりもあまり一般的ではない。
本稿では,データ豊かさ (Tge n$) とデータ貧弱さ (T le n$) の両面において,単純な後悔の上限を改良した。
より困難なデータ・ポーア・レシエーションのために、少なくとも1回は各腕をサンプリングすることなく、同じ改善を享受できるブラッケティングSH(BSH)を提案する。
- 参考スコア(独自算出の注目度): 33.88679679593314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simple regret is a natural and parameter-free performance criterion for
identifying a good arm in multi-armed bandits yet is less popular than the
probability of missing the best arm or an $\epsilon$-good arm, perhaps due to
lack of easy ways to characterize it. In this paper, we achieve improved simple
regret upper bounds for both data-rich ($T\ge n$) and data-poor regime ($T \le
n$) where $n$ is the number of arms and $T$ is the number of samples. At its
heart is an improved analysis of the well-known Sequential Halving (SH)
algorithm that bounds the probability of returning an arm whose mean reward is
not within $\epsilon$ from the best (i.e., not $\epsilon$-good) for any choice
of $\epsilon>0$, although $\epsilon$ is not an input to SH. We show that this
directly implies an optimal simple regret bound of $\mathcal{O}(\sqrt{n/T})$.
Furthermore, our upper bound gets smaller as a function of the number of
$\epsilon$-good arms. This results in an accelerated rate for the
$(\epsilon,\delta)$-PAC criterion, which closes the gap between the upper and
lower bounds in prior art. For the more challenging data-poor regime, we
propose Bracketing SH (BSH) that enjoys the same improvement even without
sampling each arm at least once. Our empirical study shows that BSH outperforms
existing methods on real-world tasks.
- Abstract(参考訳): 単純な後悔は、多腕の包帯で良い腕を特定するための自然でパラメータなしのパフォーマンス基準であり、最高の腕や$\epsilon$-good腕を欠く確率よりもあまり人気がない。
本稿では,n$ がアーム数,t$ がサンプル数であるデータリッチ (t\ge n$) とデータプーアレジーム (t \le n$) の両方に対して,単純な後悔の上限値の改善を実現する。
このアルゴリズムは、$\epsilon>0$の任意の選択に対して$\epsilon$-goodではなく、$\epsilon$はSHの入力ではないものの、$\epsilon$が最高値から$\epsilon$以内の腕を返す確率を制限している。
これは直接的に、$\mathcal{o}(\sqrt{n/t})$ の最適単純後悔束を意味する。
さらに、上限は$\epsilon$-good armsの関数として小さくなります。
この結果、$(\epsilon,\delta)$-pac の基準が加速され、前技術の上限と下限の間のギャップが縮まる。
より困難なデータポーアレジームのために、各アームを少なくとも1回サンプリングしなくても同じ改善を享受できるブラケットsh(bsh)を提案する。
我々の実証研究は、BSHが現実世界のタスクにおける既存の手法より優れていることを示している。
関連論文リスト
- Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits [55.957560311008926]
そこで本研究では,各文脈の平均値によって腕の質を計測するPSLBモデルを提案する。
PS$varepsilon$BAI$+$は、$varepsilon$-optimal armを、確率$ge 1-delta$と最小限のサンプルで識別することが保証される。
論文 参考訳(メタデータ) (2024-10-10T06:15:42Z) - On the complexity of All $\varepsilon$-Best Arms Identification [2.1485350418225244]
ガウスの報酬を持つ有限の多腕バンディットにおいて、$varepsilon$-optimal armsを全て識別する問題を考える。
我々は,$varepsilon$-good arms w.h.p の集合を同定し,期待されるサンプルの複雑さの観点から最適性($delta$が 0 になるとき)を享受するトラック・アンド・ストップアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-13T10:54:52Z) - Best-Arm Identification in Correlated Multi-Armed Bandits [9.180690233707645]
本稿では,武器間の相関に関するドメイン知識を捉えた新しい相関バンディットフレームワークを提案する。
C-LUCBで得られた全サンプルは$mathcalOleft(sum_k in MathcalC logleft(frac1deltaright)$であり、通常の$mathcalOleft(sum_k in MathcalC logleft(frac1deltaright)$とは対照的である。
論文 参考訳(メタデータ) (2021-09-10T15:41:07Z) - Bandits with many optimal arms [68.17472536610859]
最適アームの割合は$p*$、最適アームとサブ最適化アームの間の最小平均ギャップは$Delta$と書きます。
我々は,累積的後悔設定と最良腕識別設定の両方において最適な学習率を特徴付ける。
論文 参考訳(メタデータ) (2021-03-23T11:02:31Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Top-$k$ eXtreme Contextual Bandits with Arm Hierarchy [71.17938026619068]
我々は、腕の総数が膨大であることができるトップ$ k$極端な文脈的包帯問題を研究します。
まず,Inverse Gap Weighting戦略を用いて,非極端に実現可能な設定のアルゴリズムを提案する。
我々のアルゴリズムは、$O(ksqrt(A-k+1)T log (|mathcalF|T))$である。
論文 参考訳(メタデータ) (2021-02-15T19:10:52Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - An Optimal Elimination Algorithm for Learning a Best Arm [37.18327505953403]
古典的な問題である$(epsilon,delta)$-PAC学習をベストアームとみなす。
本稿では,$(epsilon,delta)$-PAC学習を最適なアームとして提案する。
論文 参考訳(メタデータ) (2020-06-20T20:21:33Z) - Explicit Best Arm Identification in Linear Bandits Using No-Regret
Learners [17.224805430291177]
線形パラメータ化マルチアームバンドにおけるベストアーム識別の問題について検討する。
そこで本研究では,この問題を解決するために,明示的に実装可能かつ証明可能な順序-最適サンプル-複雑度アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-13T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。