論文の概要: Feel-Good Thompson Sampling for Contextual Bandits: a Markov Chain Monte Carlo Showdown
- arxiv url: http://arxiv.org/abs/2507.15290v2
- Date: Wed, 13 Aug 2025 01:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.698081
- Title: Feel-Good Thompson Sampling for Contextual Bandits: a Markov Chain Monte Carlo Showdown
- Title(参考訳): Feel-Good Thompson Smpling for Contextual Bandits: a Markov Chain Monte Carlo Showdown
- Authors: Emile Anand, Sarah Liaw,
- Abstract要約: トンプソンサンプリング(Thompson Sampling)は、文脈的盗賊の探索と探索のトレードオフに広く用いられている。
最近の理論では、高次元問題では積極的に探索できないことが示されている。
Feel-Good Thompson Sampling (FG-TS)は、ハイリワードモデルにバイアスを与える楽観的なボーナスを追加することでこの問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Thompson Sampling (TS) is widely used to address the exploration/exploitation tradeoff in contextual bandits, yet recent theory shows that it does not explore aggressively enough in high-dimensional problems. Feel-Good Thompson Sampling (FG-TS) addresses this by adding an optimism bonus that biases toward high-reward models, and it achieves the asymptotically minimax-optimal regret in the linear setting when posteriors are exact. However, its performance with \emph{approximate} posteriors -- common in large-scale or neural problems -- has not been benchmarked. We provide the first systematic study of FG-TS and its smoothed variant (SFG-TS) across eleven real-world and synthetic benchmarks. To evaluate their robustness, we compare performance across settings with exact posteriors (linear and logistic bandits) to approximate regimes produced by fast but coarse stochastic-gradient samplers. Ablations over preconditioning, bonus scale, and prior strength reveal a trade-off: larger bonuses help when posterior samples are accurate, but hurt when sampling noise dominates. FG-TS generally outperforms vanilla TS in linear and logistic bandits, but tends to be weaker in neural bandits. Nevertheless, because FG-TS and its variants are competitive and easy-to-use, we recommend them as baselines in modern contextual-bandit benchmarks. Finally, we provide source code for all our experiments in https://github.com/SarahLiaw/ctx-bandits-mcmc-showdown.
- Abstract(参考訳): トンプソンサンプリング(TS)は、文脈的帯域における探索/探索のトレードオフに広く用いられているが、最近の理論では、高次元問題において十分に積極的に探索していないことが示されている。
Feel-Good Thompson Sampling (FG-TS) は、高次モデルに偏る楽観的なボーナスを加えてこの問題に対処する。
しかし、大規模または神経的な問題に共通する‘emph{approximate}後肢’のパフォーマンスは、ベンチマークされていない。
我々は、FG-TSとそのスムーズな変種(SFG-TS)を11の実世界および合成ベンチマークで研究した。
これらのロバスト性を評価するため, 高速だが粗い確率勾配型サンプリング器によって生成される条件を, 正確な後部(線形およびロジスティックな帯域幅)で比較した。
プレコンディショニング、ボーナススケール、および事前強度に対するアブレーションはトレードオフを示しており、後部サンプルが正確である場合には大きなボーナスが役立つが、サンプリングノイズが支配する場合には傷つく。
FG-TSは一般にリニアおよびロジスティックバンドではバニラTSよりも優れるが、神経バンドでは弱い傾向にある。
それでも、FG-TSとその変種は競争力があり、使いやすく、現代の文脈帯域ベンチマークのベースラインとして推奨する。
最後に、私たちはすべての実験のソースコードをhttps://github.com/SarahLiaw/ctx-bandits-mcmc-showdown.comで公開しています。
関連論文リスト
- Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Adaptive Reordering Sampler with Neurally Guided MAGSAC [63.139445467355934]
そこで我々は, 常に不整数のみを構成する確率が最も高い試料を選定する頑健な推定器のための新しいサンプリング器を提案する。
反復が失敗すると、イリヤ確率はベイズ的アプローチによって原則的に更新される。
幾何的に妥当な方法で、あらゆる種類の特徴に対して推定できる配向とスケールを利用する新しい損失を導入する。
論文 参考訳(メタデータ) (2021-11-28T10:16:38Z) - Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement
Learning [17.860102738896096]
我々はトンプソンサンプリングの理論解析を行い、頻繁な後悔境界に焦点をあてる。
我々は、トンプソンサンプリングが新しい行動の探索に十分な積極的ではないことを示し、悲観的な状況下では準最適性をもたらすことを示した。
理論的枠組みは、標準的なトンプソンサンプリングに対するベイズ的後悔境界と、Feel-Good Thompson Samplingに対する頻繁な後悔境界を導出するのに利用できることを示す。
論文 参考訳(メタデータ) (2021-10-02T20:10:40Z) - Smoothed Contrastive Learning for Unsupervised Sentence Embedding [41.09180639504244]
我々は、Gaussian Smoothing InfoNCE (GS-InfoNCE)と呼ばれるInfoNCE損失関数に基づく平滑化戦略を導入する。
GS-InfoNCEは、BERT-base、BERT-large、RoBERTa-base、RoBERTa-largeのベースで平均1.38%、0.72%、1.17%、0.28%のスピアマン相関によって、最先端のUnsup-SimCSEよりも優れている。
論文 参考訳(メタデータ) (2021-09-09T14:54:24Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。