論文の概要: Dynamic Prior Thompson Sampling for Cold-Start Exploration in Recommender Systems
- arxiv url: http://arxiv.org/abs/2602.00943v1
- Date: Sun, 01 Feb 2026 00:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.477448
- Title: Dynamic Prior Thompson Sampling for Cold-Start Exploration in Recommender Systems
- Title(参考訳): Recommenderシステムにおけるコールドスタート探索のための動的先行トンプソンサンプリング
- Authors: Zhenyu Zhao, David Zhang, Ellie Zhao, Ehsan Saberian,
- Abstract要約: 大規模なレコメンデーションシステムにおいて、コールドスタート探索は重要な課題である。
我々は,新しいアームが現時点の勝者に勝る確率を直接制御する事前設計である動的優先トンプソンサンプリングを提案する。
- 参考スコア(独自算出の注目度): 14.172382892203851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cold-start exploration is a core challenge in large-scale recommender systems: new or data-sparse items must receive traffic to estimate value, but over-exploration harms users and wastes impressions. In practice, Thompson Sampling (TS) is often initialized with a uniform Beta(1,1) prior, implicitly assuming a 50% success rate for unseen items. When true base rates are far lower, this optimistic prior systematically over-allocates to weak items. The impact is amplified by batched policy updates and pipeline latency: for hours, newly launched items can remain effectively "no data," so the prior dominates allocation before feedback is incorporated. We propose Dynamic Prior Thompson Sampling, a prior design that directly controls the probability that a new arm outcompetes the incumbent winner. Our key contribution is a closed-form quadratic solution for the prior mean that enforces P(X_j > Y_k) = epsilon at introduction time, making exploration intensity predictable and tunable while preserving TS Bayesian updates. Across Monte Carlo validation, offline batched simulations, and a large-scale online experiment on a thumbnail personalization system serving millions of users, dynamic priors deliver precise exploration control and improved efficiency versus a uniform-prior baseline.
- Abstract(参考訳): 大規模なレコメンデーションシステムにおいて、コールドスタート探索は重要な課題である。新しいアイテムやデータスパースアイテムは、価値を見積もるためにトラフィックを受けなければならないが、過剰探索はユーザーを害し、インプレッションを無駄にする。
実際には、トンプソンサンプリング(TS)はしばしば一様ベータ(1,1)で初期化され、目に見えないアイテムの50%の成功率を暗黙的に仮定する。
真のベースレートがはるかに低い場合、この楽観的な前提は、系統的に弱い項目に過度に割り当てられる。
バッチ化されたポリシ更新とパイプラインのレイテンシによって、影響は増幅される — 数時間の間、新しくローンチされたアイテムは事実上“データなし”であり、フィードバックが組み込まれる前に、前者がアロケーションを支配します。
我々は、新しいアームが現時点の勝者を上回る確率を直接制御する事前設計である動的優先トンプソンサンプリングを提案する。
我々の重要な貢献は、導入時にP(X_j > Y_k) = epsilon を強制する事前平均の閉形式二次解であり、TSベイズ更新を保存しながら、探査強度を予測可能で調整可能である。
モンテカルロのバリデーション、オフラインバッチシミュレーション、および数百万のユーザを対象としたサムネイルパーソナライゼーションシステムに関する大規模なオンライン実験、動的プリミティブは、均一なプリミティブベースラインよりも正確な探索制御と効率の向上を提供する。
関連論文リスト
- Holdout-Loss-Based Data Selection for LLM Finetuning via In-Context Learning [19.677969862434708]
本稿では,データ選択と再重み付けのための理論的に基礎的,資源効率のよいフレームワークを提案する。
In-Context Approximation (ICA) は、モデルが候補の例でトレーニングした後のホールドアウト損失を推定する。
モデルパラメータの進化に伴い, ICAスコアから指数重みを導出し, 勾配更新を動的に再加重する。
論文 参考訳(メタデータ) (2025-10-16T09:00:39Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
ラベルなしのオフライン軌道データは、効率的な探索戦略を学ぶために利用することができる。
提案手法は,42の長軸,スパース・リワードタスクからなるスイートにおいて,従来戦略よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Investigating the Interplay of Prioritized Replay and Generalization [23.248982121562985]
本稿では,TD誤差に比例してサンプリングを行う優先経験再生(PER)について検討する。
PERは動的プログラミングにおける優先順位付けされたスイーピングの成功にインスパイアされている。
論文 参考訳(メタデータ) (2024-07-12T21:56:24Z) - Active Exploration via Autoregressive Generation of Missing Data [11.713451719120707]
自己回帰シーケンスモデルからのトレーニングと生成の問題として,オンライン意思決定において不確実な定量化と探索を行う。
われわれのアプローチは、適切な行動選択によって明らかになるであろう将来の成果の欠如から生じる不確実性に頼っている。
論文 参考訳(メタデータ) (2024-05-29T19:24:44Z) - Informed Spectral Normalized Gaussian Processes for Trajectory Prediction [0.0]
本稿では,SNGPの正規化に基づく連続学習手法を提案する。
提案手法は確立された手法に基づいており,リハーサルメモリやパラメータ拡張を必要としない。
本研究では, 自律運転における軌道予測問題に対する情報SNGPモデルの適用について検討した。
論文 参考訳(メタデータ) (2024-03-18T17:05:24Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である
特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。
本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-26T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。