論文の概要: Deep Bayesian Bandits: Exploring in Online Personalized Recommendations
- arxiv url: http://arxiv.org/abs/2008.00727v1
- Date: Mon, 3 Aug 2020 08:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:40:33.061042
- Title: Deep Bayesian Bandits: Exploring in Online Personalized Recommendations
- Title(参考訳): Deep Bayesian Bandits: オンラインパーソナライズされたレコメンデーションを探る
- Authors: Dalin Guo, Sofia Ira Ktena, Ferenc Huszar, Pranay Kumar Myana, Wenzhe
Shi, Alykhan Tejani
- Abstract要約: 我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
- 参考スコア(独自算出の注目度): 4.845576821204241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems trained in a continuous learning fashion are plagued by
the feedback loop problem, also known as algorithmic bias. This causes a newly
trained model to act greedily and favor items that have already been engaged by
users. This behavior is particularly harmful in personalised ads
recommendations, as it can also cause new campaigns to remain unexplored.
Exploration aims to address this limitation by providing new information about
the environment, which encompasses user preference, and can lead to higher
long-term reward. In this work, we formulate a display advertising recommender
as a contextual bandit and implement exploration techniques that require
sampling from the posterior distribution of click-through-rates in a
computationally tractable manner. Traditional large-scale deep learning models
do not provide uncertainty estimates by default. We approximate these
uncertainty measurements of the predictions by employing a bootstrapped model
with multiple heads and dropout units. We benchmark a number of different
models in an offline simulation environment using a publicly available dataset
of user-ads engagements. We test our proposed deep Bayesian bandits algorithm
in the offline simulation and online AB setting with large-scale production
traffic, where we demonstrate a positive gain of our exploration model.
- Abstract(参考訳): 継続的学習で訓練されたレコメンダシステムは、アルゴリズムバイアスとしても知られるフィードバックループ問題に悩まされている。
これにより、新たに訓練されたモデルが欲張りに行動し、すでにユーザが関与しているアイテムを好むようになる。
この行動は、パーソナライズされた広告レコメンデーションにおいて特に有害である。
explorationは、ユーザの好みを包含する環境に関する新たな情報を提供することで、この制限に対処することを目的としている。
本研究では,コンテクスト・バンディットとしてディスプレイ広告レコメンデータを定式化し,クリックスルーレートの後方分布から計算可能な方法でサンプリングする必要がある探索手法を実装した。
従来の大規模ディープラーニングモデルは、不確実性の推定をデフォルトでは提供しない。
複数のヘッドとドロップアウトユニットを備えたブートストラップモデルを用いて、予測の不確実性の測定を近似する。
我々は,ユーザ-広告のエンゲージメントに関する公開データセットを用いて,オフラインシミュレーション環境で様々なモデルをベンチマークする。
オフラインシミュレーションと大規模生産トラフィックを伴うオンラインAB設定において,提案したディープベイズ帯域幅アルゴリズムを検証し,探索モデルの有効性を実証した。
関連論文リスト
- Personalized Negative Reservoir for Incremental Learning in Recommender
Systems [22.227137206517142]
レコメンダシステムはオンラインプラットフォームにおいて不可欠な部分となっている。
トレーニングデータの量は毎日増加しており、ユーザインタラクションの数は常に増加しています。
より大きな、より表現力のあるモデルの探索は、ユーザーエクスペリエンスを改善するために必要となる。
論文 参考訳(メタデータ) (2024-03-06T19:08:28Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Debiased Recommendation with Neural Stratification [19.841871819722016]
我々は、露光密度を増大させることにより、より正確なIPS計算のためにユーザをクラスタ化することを提案する。
提案手法の有効性を実証するために,実世界のデータセットに基づく広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-15T15:45:35Z) - Adversarial Gradient Driven Exploration for Deep Click-Through Rate
Prediction [39.61776002290324]
textbfAdrial textbfGradientversa Driven textbfExploration (AGE) と呼ばれる新しい探索手法を提案する。
AGEは勾配更新プロセスをシミュレートし、モデルに対する探索項目のサンプルの影響を近似することができる。
本手法の有効性を,オープンアクセス学術データセットで実証した。
論文 参考訳(メタデータ) (2021-12-21T12:13:07Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Non-Stationary Latent Bandits [68.21614490603758]
非定常ユーザに対して高速なパーソナライズのための実践的アプローチを提案する。
鍵となる考え方は、この問題を潜在バンディットとみなすことであり、ユーザ行動のプロトタイプモデルがオフラインで学習され、ユーザの潜伏状態がオンラインで推論される。
我々は,非定常潜伏帯域における後悔最小化のためのトンプソンサンプリングアルゴリズムを提案し,それらを解析し,実世界のデータセット上で評価する。
論文 参考訳(メタデータ) (2020-12-01T10:31:57Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。