論文の概要: PFN-TS: Thompson Sampling for Contextual Bandits via Prior-Data Fitted Networks
- arxiv url: http://arxiv.org/abs/2605.10137v1
- Date: Mon, 11 May 2026 07:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.616537
- Title: PFN-TS: Thompson Sampling for Contextual Bandits via Prior-Data Fitted Networks
- Title(参考訳): PFN-TS:Thompson Smpling for Contextual Bandits via Prior-Data Fitted Networks
- Authors: Yan Shuo Tan, Kenyon Ng, Ruizhe Deng, Sumetha Loganathan, Qiong Zhang, Bibhas Chakraborty,
- Abstract要約: 我々は,PFN後続予測を平均逆サンプルに変換するトンプソンサンプリングアルゴリズムであるPFN-TSを提案する。
PFN-TSは、非線形合成およびOpenML分類帯域間ベンチマークで最高の平均ランクを達成している。
- 参考スコア(独自算出の注目度): 7.188084723389871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thompson sampling is a widely used strategy for contextual bandits: at each round, it samples a reward function from a Bayesian posterior and acts greedily under that sample. Prior-data fitted networks (PFNs), such as TabPFN v2+ and TabICL v2, are attractive candidates for this purpose because they approximate Bayesian posterior predictive distributions in a single forward pass. However, PFNs predict noisy future rewards, while Thompson sampling requires uncertainty over the latent mean reward function. We propose PFN-TS, a Thompson sampling algorithm that converts PFN posterior predictives into mean-reward samples using a subsampled predictive central limit theorem. The method estimates posterior variance from a geometric grid of $O(\log n)$ dataset prefixes rather than the full $O(n)$ predictive sequence used in previous predictive-sequence approaches, and reuses TabICL's cached representations across rounds. We prove consistency of the subsampled variance estimator and give a Bayesian regret bound that decomposes PFN-TS regret into exact posterior-sampling regret under the PFN prior plus approximation terms. Empirically, PFN-TS achieves the best average rank across nonlinear synthetic and OpenML classification-to-bandit benchmarks, remains competitive on linear and BART-generated rewards, and attains the highest estimated policy value in an offline mobile-health evaluation. Code is available at https://anonymous.4open.science/r/PFN_TS-36ED/.
- Abstract(参考訳): トンプソンサンプリング(Thompson sample)は、文脈的包帯に対して広く用いられる戦略であり、各ラウンドでベイズの後部から報酬関数をサンプリングし、そのサンプルの下で優雅に作用する。
TabPFN v2+やTabICL v2のようなPFN(Presideed-data fited Network)は、ベイズ的後続予測分布を1つの前方パスで近似するため、この目的に魅力的な候補である。
しかしながら、PFNはノイズのある将来の報酬を予測する一方、トンプソンサンプリングは潜伏平均報酬関数に対して不確実性を必要とする。
我々は,PFN後続予測を,サブサンプル付き予測中心極限定理を用いて平均逆サンプルに変換するトンプソンサンプリングアルゴリズムであるPFN-TSを提案する。
この方法は、以前の予測シーケンスアプローチで使われるフル$O(n)$予測シーケンスではなく、$O(\log n)$データセットプレフィックスの幾何学的グリッドから後方分散を推定し、ラウンド間でTabICLのキャッシュされた表現を再利用する。
サブサンプリング分散推定器の整合性を証明し、PFN-TSの後悔をPFNの先行項と近似項で正確に後方サンプリング後悔に分解するベイズ的後悔境界を与える。
実験的に、PFN-TSは、非線形合成とOpenML分類と帯域幅のベンチマークで最高の平均ランクを獲得し、線形およびBART生成の報酬で競争力を維持し、オフラインのモバイルヘルス評価において最も高い評価ポリシー値を得る。
コードはhttps://anonymous.4open.science/r/PFN_TS-36ED/で公開されている。
関連論文リスト
- Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits [54.220839560203096]
FGTSVA, 変分対応型トンプソンサンプリングアルゴリズムを提案する。
新しいデカップリング係数を$mathrmdc$で表すと、FGTS-VAは$tildeO(sqrtmathrmdccdotlog|mathcalF|$)を後悔する。
文脈線形帯域の設定において、FGTSVAの後悔境界は UCB ベースと一致する
論文 参考訳(メタデータ) (2025-11-03T23:25:41Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - VITS : Variational Inference Thompson Sampling for contextual bandits [10.028119153832346]
我々は、文脈的帯域幅に対するトンプソンサンプリング(TS)アルゴリズムの変種を導入・解析する。
ガウス変分推論に基づく新しいアルゴリズムであるValational Inference Thompson sample VITSを提案する。
我々は,VITS が線形文脈帯域に対して従来の TS の次元とラウンド数で同じ順序のサブ線形後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2023-07-19T17:53:22Z) - Langevin Monte Carlo for Contextual Bandits [72.00524614312002]
Langevin Monte Carlo Thompson Sampling (LMC-TS) が提案されている。
提案アルゴリズムは,文脈的帯域幅の特別な場合において,最高のトンプソンサンプリングアルゴリズムと同じサブ線形残差を達成できることを示す。
論文 参考訳(メタデータ) (2022-06-22T17:58:23Z) - Non-Probability Sampling Network for Stochastic Human Trajectory
Prediction [16.676008193894223]
歩行者の軌跡予測を組み込むためには,マルチモーダルな性質の獲得が不可欠である。
本稿では,従来のランダムサンプリングの代替として,サンプリング空間の均一なカバレッジを確保するQuasi-Carlo法を提案する。
我々は、学習可能なサンプリングネットワークを既存のネットワークに導入し、軌道予測を行う。
論文 参考訳(メタデータ) (2022-03-25T06:41:47Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。