論文の概要: Online Learning and Bandits with Queried Hints
- arxiv url: http://arxiv.org/abs/2211.02703v1
- Date: Fri, 4 Nov 2022 18:41:08 GMT
- ステータス: 処理完了
- Title: Online Learning and Bandits with Queried Hints
- Title(参考訳): オンライン学習と待ち時間付きバンド
- Authors: Aditya Bhaskara, Sreenivas Gollapudi, Sungjin Im, Kostas Kollias,
Kamesh Munagala
- Abstract要約: 従来のオンライン学習とマルチアーム・バンディット(MAB)の問題について考察する。
オンライン線形および凸最適化のための時間非依存の後悔境界を達成するために,$k=2$ suffices を用いて探索を行うことが示される。
- 参考スコア(独自算出の注目度): 28.270453093780382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the classic online learning and stochastic multi-armed bandit
(MAB) problems, when at each step, the online policy can probe and find out
which of a small number ($k$) of choices has better reward (or loss) before
making its choice. In this model, we derive algorithms whose regret bounds have
exponentially better dependence on the time horizon compared to the classic
regret bounds. In particular, we show that probing with $k=2$ suffices to
achieve time-independent regret bounds for online linear and convex
optimization. The same number of probes improve the regret bound of stochastic
MAB with independent arms from $O(\sqrt{nT})$ to $O(n^2 \log T)$, where $n$ is
the number of arms and $T$ is the horizon length. For stochastic MAB, we also
consider a stronger model where a probe reveals the reward values of the probed
arms, and show that in this case, $k=3$ probes suffice to achieve
parameter-independent constant regret, $O(n^2)$. Such regret bounds cannot be
achieved even with full feedback after the play, showcasing the power of
limited ``advice'' via probing before making the play. We also present
extensions to the setting where the hints can be imperfect, and to the case of
stochastic MAB where the rewards of the arms can be correlated.
- Abstract(参考訳): 従来のオンライン学習と確率的マルチアーム・バンディット(MAB)問題を考えると、各ステップでオンラインポリシーが探索し、選択する前に少数の選択肢のうちどれがより良い報酬(または損失)を得られるかを見つけることができる。
このモデルでは, 後悔境界が古典的後悔境界よりも指数関数的に時間地平線に依存するアルゴリズムを導出する。
特に,オンライン線形および凸最適化のための時間に依存しない後悔の限界を達成するために,$k=2$ sufficesで探索することを示す。
同じ数のプローブは、独立腕が$o(\sqrt{nt})$から$o(n^2 \log t)$であり、ここで$n$は腕の数、$t$は地平線の長さである。
また, ヒントが不完全であるような設定や, 腕の報酬が関連付けられる確率的mabへの拡張についても述べる。
