論文の概要: Deep Bayesian Bandits: Exploring in Online Personalized Recommendations
- arxiv url: http://arxiv.org/abs/2008.00727v1
- Date: Mon, 3 Aug 2020 08:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:40:33.061042
- Title: Deep Bayesian Bandits: Exploring in Online Personalized Recommendations
- Title(参考訳): Deep Bayesian Bandits: オンラインパーソナライズされたレコメンデーションを探る
- Authors: Dalin Guo, Sofia Ira Ktena, Ferenc Huszar, Pranay Kumar Myana, Wenzhe
Shi, Alykhan Tejani
- Abstract要約: 我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
- 参考スコア(独自算出の注目度): 4.845576821204241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems trained in a continuous learning fashion are plagued by
the feedback loop problem, also known as algorithmic bias. This causes a newly
trained model to act greedily and favor items that have already been engaged by
users. This behavior is particularly harmful in personalised ads
recommendations, as it can also cause new campaigns to remain unexplored.
Exploration aims to address this limitation by providing new information about
the environment, which encompasses user preference, and can lead to higher
long-term reward. In this work, we formulate a display advertising recommender
as a contextual bandit and implement exploration techniques that require
sampling from the posterior distribution of click-through-rates in a
computationally tractable manner. Traditional large-scale deep learning models
do not provide uncertainty estimates by default. We approximate these
uncertainty measurements of the predictions by employing a bootstrapped model
with multiple heads and dropout units. We benchmark a number of different
models in an offline simulation environment using a publicly available dataset
of user-ads engagements. We test our proposed deep Bayesian bandits algorithm
in the offline simulation and online AB setting with large-scale production
traffic, where we demonstrate a positive gain of our exploration model.
- Abstract(参考訳): 継続的学習で訓練されたレコメンダシステムは、アルゴリズムバイアスとしても知られるフィードバックループ問題に悩まされている。
これにより、新たに訓練されたモデルが欲張りに行動し、すでにユーザが関与しているアイテムを好むようになる。
この行動は、パーソナライズされた広告レコメンデーションにおいて特に有害である。
explorationは、ユーザの好みを包含する環境に関する新たな情報を提供することで、この制限に対処することを目的としている。
本研究では,コンテクスト・バンディットとしてディスプレイ広告レコメンデータを定式化し,クリックスルーレートの後方分布から計算可能な方法でサンプリングする必要がある探索手法を実装した。
従来の大規模ディープラーニングモデルは、不確実性の推定をデフォルトでは提供しない。
複数のヘッドとドロップアウトユニットを備えたブートストラップモデルを用いて、予測の不確実性の測定を近似する。
我々は,ユーザ-広告のエンゲージメントに関する公開データセットを用いて,オフラインシミュレーション環境で様々なモデルをベンチマークする。
オフラインシミュレーションと大規模生産トラフィックを伴うオンラインAB設定において,提案したディープベイズ帯域幅アルゴリズムを検証し,探索モデルの有効性を実証した。
関連論文リスト
- Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits [23.15042648884445]
我々は,Linear Cascading Banditsとして知られる,よく知られた文脈的帯域幅アルゴリズムのクラスにおける露出バイアスについて検討した。
本研究では,1)暗黙的なユーザフィードバック,2)レコメンデーションリストにおける項目の位置という2つの要因に基づいて,モデルパラメータを更新する Exposure-Aware reward モデルを提案する。
論文 参考訳(メタデータ) (2024-08-08T09:35:01Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - Posterior Sampling via Autoregressive Generation [11.713451719120707]
本稿では,大規模な履歴データから帯域幅アルゴリズムを学習するための新しいフレームワークを提案する。
我々は、過去のデータを用いて自己回帰モデルを事前訓練し、繰り返しのフィードバック/リワードのシーケンスを予測する。
意思決定時には、各アクションに対して想像された報酬の列を自動で(インプット)サンプリングし、最大平均的な報酬でアクションを選択する。
論文 参考訳(メタデータ) (2024-05-29T19:24:44Z) - Personalized Negative Reservoir for Incremental Learning in Recommender
Systems [22.227137206517142]
レコメンダシステムはオンラインプラットフォームにおいて不可欠な部分となっている。
トレーニングデータの量は毎日増加しており、ユーザインタラクションの数は常に増加しています。
より大きな、より表現力のあるモデルの探索は、ユーザーエクスペリエンスを改善するために必要となる。
論文 参考訳(メタデータ) (2024-03-06T19:08:28Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。