論文の概要: TS-UCB: Improving on Thompson Sampling With Little to No Additional
Computation
- arxiv url: http://arxiv.org/abs/2006.06372v2
- Date: Tue, 4 May 2021 01:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 10:02:57.681766
- Title: TS-UCB: Improving on Thompson Sampling With Little to No Additional
Computation
- Title(参考訳): TS-UCB:トンプソンサンプリングの改善、追加計算なし
- Authors: Jackie Baek, Vivek F. Farias
- Abstract要約: トンプソンサンプリングの重要なアルゴリズム課題は、最適な動作の後部からサンプルを描画することである。
我々はTS-UCBをダブする代替アーム選択ルールを提案する。
TS-UCBは、合成および実世界のデータセットの包括的なスイートに対して、非常に少ない後悔を達成する。
- 参考スコア(独自算出の注目度): 5.507914684546041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling has become a ubiquitous approach to online decision
problems with bandit feedback. The key algorithmic task for Thompson sampling
is drawing a sample from the posterior of the optimal action. We propose an
alternative arm selection rule we dub TS-UCB, that requires negligible
additional computational effort but provides significant performance
improvements relative to Thompson sampling. At each step, TS-UCB computes a
score for each arm using two ingredients: posterior sample(s) and upper
confidence bounds. TS-UCB can be used in any setting where these two quantities
are available, and it is flexible in the number of posterior samples it takes
as input. TS-UCB achieves materially lower regret on a comprehensive suite of
synthetic and real-world datasets, including a personalized article
recommendation dataset from Yahoo! and a suite of benchmark datasets from a
deep bandit suite proposed in Riquelme et al. (2018). Finally, from a
theoretical perspective, we establish optimal regret guarantees for TS-UCB for
both the K-armed and linear bandit models.
- Abstract(参考訳): トンプソンサンプリングは、バンディットフィードバックによるオンライン意思決定問題に対するユビキタスなアプローチとなっている。
トンプソンサンプリングの重要なアルゴリズム課題は、最適な動作の後部からサンプルを描画することである。
我々はTS-UCBをダブする代替アーム選択ルールを提案する。
各ステップでTS-UCBは、後部サンプル(s)と上側信頼境界という2つの要素を用いて各アームのスコアを計算する。
TS-UCBはこれらの2つの量が存在する任意の環境で使用することができ、入力として受け取る後部サンプルの数に柔軟である。
TS-UCBは、Yahoo!のパーソナライズされた記事レコメンデーションデータセットや、Riquelme et al. (2018)で提案されたディープバンディットスイートからのベンチマークデータセットスイートを含む、総合的な合成および実世界のデータセットスイートに対する、非常に少ない後悔を実現する。
最後に,理論的な観点からは,k-武装モデルと線形バンディットモデルの両方に対するts-ucbの最適後悔保証を確立する。
関連論文リスト
- Fast, Precise Thompson Sampling for Bayesian Optimization [0.0]
トンプソンサンプリング(TS)は、多腕バンディット問題において最適な後悔と優れた経験的性能を有する。
最近のアルゴリズムでは、P-Star Sampler (PSS) がHit-and-Runを介してそのようなサンプリングを行う。
改良版であるStagger Thompson Sampler (STS) を提示する。
論文 参考訳(メタデータ) (2024-11-26T03:14:38Z) - Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits [1.4732811715354452]
我々は、各アームが選択時に異なるリソースを消費する、$Kの武器付きバンディット問題を考える。
我々はトンプソンサンプリングのようにランダム化される一連のアルゴリズムを提案するが、予算制約に関してより慎重に決定を最適化する。
論文 参考訳(メタデータ) (2024-08-28T04:56:06Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits [81.45853204922795]
トンプソンサンプリングは、いくつかの報酬モデルにおいて問題依存の低い境界を達成することが示されている。
重い尾を持つパレートモデルに対するTSの最適性は、2つの未知のパラメータによってパラメータ化される。
ジェフリーズおよび参照先行値を持つTSは、トラルニケート手順を使用すると、下界を達成できる。
論文 参考訳(メタデータ) (2023-02-03T04:47:14Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - MOTS: Minimax Optimal Thompson Sampling [89.2370817955411]
トンプソンサンプリングがミニマックス下限の$Omega(sqrtKT)$と$K$の武器付きバンディット問題に一致するかどうかという未解決の問題のままである。
我々は,各タイミングで選択した腕のサンプリングインスタンスを適応的にクリップするMOTSと呼ばれるトンプソンサンプリングの変種を提案する。
我々は、この単純なトンプソンサンプリングの変種が、有限時間地平線に対して$O(sqrtKT)$のミニマックス最適後悔境界と、$T$が無限に近づくときのガウス報酬に対する最適後悔境界を達成することを証明した。
論文 参考訳(メタデータ) (2020-03-03T21:24:39Z) - On Thompson Sampling with Langevin Algorithms [106.78254564840844]
多武装バンディット問題に対するトンプソンサンプリングは理論と実践の両方において良好な性能を享受する。
計算上のかなりの制限に悩まされており、反復ごとに後続分布からのサンプルを必要とする。
本稿では,この問題に対処するために,トンプソンサンプリングに適した2つのマルコフ連鎖モンテカルロ法を提案する。
論文 参考訳(メタデータ) (2020-02-23T22:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。