論文の概要: Epinet for Content Cold Start
- arxiv url: http://arxiv.org/abs/2412.04484v1
- Date: Wed, 20 Nov 2024 19:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 21:45:55.822231
- Title: Epinet for Content Cold Start
- Title(参考訳): コンテンツコールドスタートのためのエピネット
- Authors: Hong Jun Jeon, Songbin Liu, Yuantong Li, Jie Lyu, Hunter Song, Ji Liu, Peng Wu, Zheqing Zhu,
- Abstract要約: epinetsは、学習モデルが複雑なニューラルネットワークである場合でも、トンプソンサンプリングの効率的な近似を可能にする。
実験では,Facebook Reelsオンラインビデオプラットフォーム上でのユーザトラフィックとエンゲージメント効率の改善を実証した。
- 参考スコア(独自算出の注目度): 14.018820788546535
- License:
- Abstract: The exploding popularity of online content and its user base poses an evermore challenging matching problem for modern recommendation systems. Unlike other frontiers of machine learning such as natural language, recommendation systems are responsible for collecting their own data. Simply exploiting current knowledge can lead to pernicious feedback loops but naive exploration can detract from user experience and lead to reduced engagement. This exploration-exploitation trade-off is exemplified in the classic multi-armed bandit problem for which algorithms such as upper confidence bounds (UCB) and Thompson sampling (TS) demonstrate effective performance. However, there have been many challenges to scaling these approaches to settings which do not exhibit a conjugate prior structure. Recent scalable approaches to uncertainty quantification via epinets have enabled efficient approximations of Thompson sampling even when the learning model is a complex neural network. In this paper, we demonstrate the first application of epinets to an online recommendation system. Our experiments demonstrate improvements in both user traffic and engagement efficiency on the Facebook Reels online video platform.
- Abstract(参考訳): オンラインコンテンツの爆発的な普及とユーザベースは、現代のレコメンデーションシステムにとって、ずっと困難な問題となっている。
自然言語のような機械学習の他のフロンティアとは異なり、レコメンデーションシステムは独自のデータを収集する責任がある。
現在の知識を単純に活用すれば、悪質なフィードバックループにつながるかも知れませんが、初歩的な探索はユーザエクスペリエンスから逸脱し、エンゲージメントを低下させます。
この探索-探索トレードオフは、高信頼境界(UCB)やトンプソンサンプリング(TS)といったアルゴリズムが効果的な性能を示す古典的なマルチアームバンディット問題において例示される。
しかし、これらのアプローチを事前構造を共役しないような設定に拡張するには多くの課題があった。
エピネットによる不確実性定量化への最近のスケーラブルなアプローチは、学習モデルが複雑なニューラルネットワークである場合でも、トンプソンサンプリングの効率的な近似を可能にした。
本稿では,オンラインレコメンデーションシステムにおけるエピネットの最初の応用例を示す。
実験では,Facebook Reelsオンラインビデオプラットフォーム上でのユーザトラフィックとエンゲージメント効率の改善を実証した。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - BayesCNS: A Unified Bayesian Approach to Address Cold Start and Non-Stationarity in Search Systems at Scale [1.1634177851893535]
BayesCNSは、大規模検索システムにおけるコールドスタートおよび非定常分布シフトを処理するように設計されている。
BayesCNSは、オンラインに集められた新しいユーザーインタラクションを継続的に更新するユーザとイテムのインタラクションの事前分布を推定することで、これを達成している。
このオンライン学習手順はランサーモデルによりガイドされ、コンテキスト情報を用いて関連項目の効率的な探索を可能にする。
論文 参考訳(メタデータ) (2024-10-03T01:14:30Z) - Online Matching: A Real-time Bandit System for Large-scale
Recommendations [23.954049092470548]
Online Matchingは、ユーザのアイテムに対する直接的なフィードバックをリアルタイムで学習する、スケーラブルなクローズドループバンディットシステムである。
Diag-LinUCBはLinUCBアルゴリズムの新たな拡張であり、スケーラブルでタイムリーな方法で帯域幅パラメータの分散更新を可能にする。
論文 参考訳(メタデータ) (2023-07-29T05:46:27Z) - Scalable Neural Contextual Bandit for Recommender Systems [20.54959238452023]
エピステマティック・ニューラルレコメンデーション(英: Epistemic Neural Recommendation)は、リコメンダシステムのためのスケーラブルなサンプル効率なニューラルコンテクチュアル・バンディットアルゴリズムである。
ENRはクリックスルー率とユーザレーティングをそれぞれ少なくとも9%と6%向上させる。
最良性能のベースラインアルゴリズムと比較して、少なくとも29%のユーザインタラクションで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-26T16:39:39Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。