論文の概要: BFTS: Thompson Sampling with Bayesian Additive Regression Trees
- arxiv url: http://arxiv.org/abs/2602.07767v1
- Date: Sun, 08 Feb 2026 01:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.792169
- Title: BFTS: Thompson Sampling with Bayesian Additive Regression Trees
- Title(参考訳): BFTS: Thompson Smpling with Bayesian Additive Regression Trees (英語)
- Authors: Ruizhe Deng, Bibhas Chakraborty, Ran Chen, Yan Shuo Tan,
- Abstract要約: コンテキストブレイディットは、パーソナライズされたモバイルヘルス介入のための中核技術である。
本研究では,BART(Bayesian Additive Regression Trees)を探索ループに直接組み込むための,最初のコンテキスト帯域幅アルゴリズムを提案する。
オフライン政策評価では、BFTSはデプロイされたポリシーと比較してエンゲージメント率を30%以上改善する。
- 参考スコア(独自算出の注目度): 3.5914503354050336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual bandits are a core technology for personalized mobile health interventions, where decision-making requires adapting to complex, non-linear user behaviors. While Thompson Sampling (TS) is a preferred strategy for these problems, its performance hinges on the quality of the underlying reward model. Standard linear models suffer from high bias, while neural network approaches are often brittle and difficult to tune in online settings. Conversely, tree ensembles dominate tabular data prediction but typically rely on heuristic uncertainty quantification, lacking a principled probabilistic basis for TS. We propose Bayesian Forest Thompson Sampling (BFTS), the first contextual bandit algorithm to integrate Bayesian Additive Regression Trees (BART), a fully probabilistic sum-of-trees model, directly into the exploration loop. We prove that BFTS is theoretically sound, deriving an information-theoretic Bayesian regret bound of $\tilde{O}(\sqrt{T})$. As a complementary result, we establish frequentist minimax optimality for a "feel-good" variant, confirming the structural suitability of BART priors for non-parametric bandits. Empirically, BFTS achieves state-of-the-art regret on tabular benchmarks with near-nominal uncertainty calibration. Furthermore, in an offline policy evaluation on the Drink Less micro-randomized trial, BFTS improves engagement rates by over 30% compared to the deployed policy, demonstrating its practical effectiveness for behavioral interventions.
- Abstract(参考訳): コンテキスト帯はパーソナライズされたモバイルヘルス介入のための中核技術であり、意思決定は複雑で非線形なユーザー行動に適応する必要がある。
Thompson Sampling (TS) はこれらの問題に対して望ましい戦略であるが、その性能は基礎となる報酬モデルの品質に依存している。
標準的な線形モデルは高いバイアスに悩まされるが、ニューラルネットワークのアプローチは不安定で、オンライン設定ではチューニングが難しいことが多い。
逆に、ツリーアンサンブルは表形式のデータ予測を支配しているが、一般的にはヒューリスティックな不確実性定量化に依存しており、TSの原理的な確率的基礎を欠いている。
我々はベイジアン・フォレスト・トンプソンサンプリング(BFTS)を提案し、ベイジアン・アダプティブ・レグレッション・ツリー(BART)を探索ループに直接組み込む最初の文脈的バンディットアルゴリズムを提案する。
BFTS が理論的に健全であることを証明し、情報理論ベイズ的後悔境界 $\tilde{O}(\sqrt{T})$ を導出する。
相補的な結果として、我々は、非パラメトリックバンディットに対するBART前の構造的適合性を確認する「フィールグッド」な変種に対して、頻繁なミニマックス最適性を確立する。
経験的に、BFTSは、ほぼ最小の不確かさのキャリブレーションを持つ表型ベンチマークに対して、最先端の後悔を達成している。
さらに、BFTSは、飲酒少ないマイクロランダム化試験におけるオフライン政策評価において、デプロイされたポリシーと比較して、エンゲージメント率を30%以上改善し、行動介入の実践的効果を示す。
関連論文リスト
- Richer Bayesian Last Layers with Subsampled NTK Features [25.566044416945875]
Bayesian Last Layers (BLL) は、ニューラルネットワークにおける不確実性を推定する便利な、計算的に効率的な方法を提供する。
本稿では,最後の層に分散した空間上のニューラル・タンジェント・カーネル(NTK)特徴の投影を利用して,BLLを改善する手法を提案する。
これにより、標準的なBLLの推論の計算コストを低く保ちながら、完全なネットワークの可変性を考慮に入れた後部推論が可能となる。
論文 参考訳(メタデータ) (2026-02-01T15:24:20Z) - PAC-Bayes Meets Online Contextual Optimization [4.004966432215451]
この作業は、私たちの知る限り、最初のオンラインコンテキスト最適化フレームワークを紹介します。
PAC-Bayes理論と一般ベイズ的更新原理に基づいて、我々のフレームワークはGibs後部を通した有界および混合可能な損失に対して$mathcalO(sqrtT)$ regretを達成する。
論文 参考訳(メタデータ) (2025-11-25T15:37:31Z) - BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Batched Nonparametric Bandits via k-Nearest Neighbor UCB [0.0]
バッチ化された非パラメトリックな文脈的包帯における逐次的意思決定について検討する。
適応的k-アネレスト近傍(k-NN)回帰と上位信頼境界(UCB)の原理を組み合わせた非パラメトリックアルゴリズムを提案する。
提案手法であるBaNk-UCBは完全に非パラメトリックであり,コンテキスト次元に適応し,実装が簡単である。
論文 参考訳(メタデータ) (2025-05-15T17:00:51Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - GP-BART: a novel Bayesian additive regression trees approach using
Gaussian processes [1.03590082373586]
GP-BARTモデル(GP-BART model)は、すべての木間の各終端ノードの予測にGP先行を仮定することで制限に対処するBARTの拡張である。
モデルの有効性は、シミュレーションおよび実世界のデータへの応用を通じて実証され、様々なシナリオにおける従来のモデリング手法のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2022-04-05T11:18:44Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Deep Bandits Show-Off: Simple and Efficient Exploration with Deep
Networks [14.178899938667161]
文脈的包帯に対する簡便かつ効率的な不確実性尺度であるサンプル平均不確実性(SAU)を紹介する。
単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。
論文 参考訳(メタデータ) (2021-05-10T21:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。