論文の概要: p-Mean Regret for Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2412.10751v1
- Date: Sat, 14 Dec 2024 08:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:45.518913
- Title: p-Mean Regret for Stochastic Bandits
- Title(参考訳): 確率帯域に対するp平均レグレット
- Authors: Anand Krishna, Philips George John, Adarsh Barik, Vincent Y. F. Tan,
- Abstract要約: 単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
- 参考スコア(独自算出の注目度): 52.828710025519996
- License:
- Abstract: In this work, we extend the concept of the $p$-mean welfare objective from social choice theory (Moulin 2004) to study $p$-mean regret in stochastic multi-armed bandit problems. The $p$-mean regret, defined as the difference between the optimal mean among the arms and the $p$-mean of the expected rewards, offers a flexible framework for evaluating bandit algorithms, enabling algorithm designers to balance fairness and efficiency by adjusting the parameter $p$. Our framework encompasses both average cumulative regret and Nash regret as special cases. We introduce a simple, unified UCB-based algorithm (Explore-Then-UCB) that achieves novel $p$-mean regret bounds. Our algorithm consists of two phases: a carefully calibrated uniform exploration phase to initialize sample means, followed by the UCB1 algorithm of Auer, Cesa-Bianchi, and Fischer (2002). Under mild assumptions, we prove that our algorithm achieves a $p$-mean regret bound of $\tilde{O}\left(\sqrt{\frac{k}{T^{\frac{1}{2|p|}}}}\right)$ for all $p \leq -1$, where $k$ represents the number of arms and $T$ the time horizon. When $-1<p<0$, we achieve a regret bound of $\tilde{O}\left(\sqrt{\frac{k^{1.5}}{T^{\frac{1}{2}}}}\right)$. For the range $0< p \leq 1$, we achieve a $p$-mean regret scaling as $\tilde{O}\left(\sqrt{\frac{k}{T}}\right)$, which matches the previously established lower bound up to logarithmic factors (Auer et al. 1995). This result stems from the fact that the $p$-mean regret of any algorithm is at least its average cumulative regret for $p \leq 1$. In the case of Nash regret (the limit as $p$ approaches zero), our unified approach differs from prior work (Barman et al. 2023), which requires a new Nash Confidence Bound algorithm. Notably, we achieve the same regret bound up to constant factors using our more general method.
- Abstract(参考訳): 本研究では、社会選択論(Moulin 2004)から、確率的マルチアームバンディット問題における「p$-mean regret」研究まで、$p$-meanの福祉目標の概念を拡張した。
単純で統一された UCB ベースのアルゴリズム (Explore-Then-UCB) を導入する。
提案アルゴリズムは,サンプル平均を初期化するための一様探索フェーズと,アウアー,セサ・ビアンキ,フィッシャー (2002) の UCB1 アルゴリズムの2つのフェーズから構成される。
穏やかな仮定の下で、我々のアルゴリズムは、すべての$p \leq -1$に対して$\tilde{O}\left(\sqrt {\frac{k}{T^{\frac{1}{2|p|}}}}\right)$$で、$k$は腕の数を表し、$T$は時間地平線を表す。
1<p<0$ となると、$\tilde{O}\left(\sqrt {\frac{k^{1.5}}{T^{\frac{1}{2}}}}\right)$ となる。
0< p \leq 1$ の範囲に対して、$\tilde{O}\left(\sqrt {\frac{k}{T}}\right)$として$p$-meanの後悔のスケーリングを達成する。
この結果は、任意のアルゴリズムに対する$p$平均後悔は、少なくとも$p \leq 1$に対する平均的な累積後悔であるという事実に由来する。
ナッシュ後悔の場合($p$がゼロに近づく限界)、我々の統一的なアプローチは、新しいナッシュ信頼境界アルゴリズムを必要とする以前の作業(Barman et al 2023)とは異なる。
- Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Fast UCB-type algorithms for stochastic bandits with heavy and super
heavy symmetric noise [45.60098988395789]
報酬の対称雑音の場合、$O(log TsqrtKTlog T)$ regret bound を $Oleft の代わりに達成できることを示す。
論文 参考訳(メタデータ) (2024-02-10T22:38:21Z) - Best-of-Both-Worlds Algorithms for Linear Contextual Bandits [11.94312915280916]
論文 参考訳(メタデータ) (2023-12-24T08:27:30Z) - Context-lumpable stochastic bandits [49.024050919419366]
我々は,最大$widetilde O(r (S +K )/epsilon2)$サンプルを用いて,$epsilon$-optimal Policyを出力するアルゴリズムを提案する。
後悔の設定では、T$までの累積後悔を$widetilde O(sqrtr3(S+K)T)$で束縛するアルゴリズムを与える。
論文 参考訳(メタデータ) (2023-06-22T17:20:30Z) - Tight Regret Bounds for Single-pass Streaming Multi-armed Bandits [3.5955736977697073]
論文 参考訳(メタデータ) (2023-06-03T22:41:44Z) - Tight Bounds for $\gamma$-Regret via the Decision-Estimation Coefficient [88.86699022151598]
論文 参考訳(メタデータ) (2023-03-06T17:54:33Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Double Doubly Robust Thompson Sampling for Generalized Linear Contextual
Bandits [8.508198765617198]
一般化線形報酬に$tildeO(sqrtkappa-1 phi T)$ regret over $T$ roundsを提案する。
また、確率的マージン条件下では、$O(kappa-1 phi log (NT) log T)$ regret bound for $N$ arms も提供する。
論文 参考訳(メタデータ) (2022-09-15T00:20:38Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z)