論文の概要: Thompson Sampling for Unimodal Bandits
- arxiv url: http://arxiv.org/abs/2106.08187v2
- Date: Wed, 16 Jun 2021 04:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 11:45:25.988211
- Title: Thompson Sampling for Unimodal Bandits
- Title(参考訳): ユニモーダルバンディットに対するトンプソンサンプリング
- Authors: Long Yang, Zhao Li, Zehong Hu, Shasha Ruan, Shijian Li, Gang Pan,
Hongyang Chen
- Abstract要約: 本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
- 参考スコア(独自算出の注目度): 21.514495320038712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Thompson Sampling algorithm for \emph{unimodal}
bandits, where the expected reward is unimodal over the partially ordered arms.
To exploit the unimodal structure better, at each step, instead of exploration
from the entire decision space, our algorithm makes decision according to
posterior distribution only in the neighborhood of the arm that has the highest
empirical mean estimate. We theoretically prove that, for Bernoulli rewards,
the regret of our algorithm reaches the lower bound of unimodal bandits, thus
it is asymptotically optimal. For Gaussian rewards, the regret of our algorithm
is $\mathcal{O}(\log T)$, which is far better than standard Thompson Sampling
algorithms. Extensive experiments demonstrate the effectiveness of the proposed
algorithm on both synthetic data sets and the real-world applications.
- Abstract(参考訳): 本稿では,半順序の腕に対して期待される報酬が一様である「emph{unimodal} bandits」に対するトンプソンサンプリングアルゴリズムを提案する。
各ステップにおいて、決定空間全体から探索するのではなく、一様構造をよりうまく活用するために、我々のアルゴリズムは、最も経験的平均推定値の高い腕の近傍にのみ後部分布に従って決定を行う。
理論上、ベルヌーイの報酬に対して、我々のアルゴリズムの後悔はユニモーダル・バンディットの下限に達することを証明し、漸近的に最適である。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$\mathcal{O}(\log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
大規模な実験は、合成データセットと実世界の応用の両方において提案アルゴリズムの有効性を示す。
関連論文リスト
- Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Finite-Time Regret of Thompson Sampling Algorithms for Exponential
Family Multi-Armed Bandits [88.21288104408556]
本研究では,指数関数族バンドイットに対するトンプソンサンプリング (TS) アルゴリズムの遺残について検討する。
最適な腕の過小評価を避けるために,新しいサンプリング分布を用いたトンプソンサンプリング(Expulli)を提案する。
論文 参考訳(メタデータ) (2022-06-07T18:08:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Maillard Sampling: Boltzmann Exploration Done Optimally [11.282341369957216]
この論文は、$K$武装バンディット問題に対するランダム化アルゴリズムを示す。
メイラードサンプリング(MS)は、各アームを閉じた形で選択する確率を計算する。
最適性を失わずに$sqrtKTlogK$に制限された最小値を改善するMS$+$というMSの変種を提案する。
論文 参考訳(メタデータ) (2021-11-05T06:50:22Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - MOTS: Minimax Optimal Thompson Sampling [89.2370817955411]
トンプソンサンプリングがミニマックス下限の$Omega(sqrtKT)$と$K$の武器付きバンディット問題に一致するかどうかという未解決の問題のままである。
我々は,各タイミングで選択した腕のサンプリングインスタンスを適応的にクリップするMOTSと呼ばれるトンプソンサンプリングの変種を提案する。
我々は、この単純なトンプソンサンプリングの変種が、有限時間地平線に対して$O(sqrtKT)$のミニマックス最適後悔境界と、$T$が無限に近づくときのガウス報酬に対する最適後悔境界を達成することを証明した。
論文 参考訳(メタデータ) (2020-03-03T21:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。