論文の概要: Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits
- arxiv url: http://arxiv.org/abs/2408.04332v1
- Date: Thu, 08 Aug 2024 09:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:21:49.746713
- Title: Mitigating Exposure Bias in Online Learning to Rank Recommendation: A Novel Reward Model for Cascading Bandits
- Title(参考訳): オンライン学習における露出バイアスのランク推薦への移行:カスケードバンドの新たなリワードモデル
- Authors: Masoud Mansoury, Bamshad Mobasher, Herke van Hoof,
- Abstract要約: 我々は,Linear Cascading Banditsとして知られる,よく知られた文脈的帯域幅アルゴリズムのクラスにおける露出バイアスについて検討した。
本研究では,1)暗黙的なユーザフィードバック,2)レコメンデーションリストにおける項目の位置という2つの要因に基づいて,モデルパラメータを更新する Exposure-Aware reward モデルを提案する。
- 参考スコア(独自算出の注目度): 23.15042648884445
- License:
- Abstract: Exposure bias is a well-known issue in recommender systems where items and suppliers are not equally represented in the recommendation results. This bias becomes particularly problematic over time as a few items are repeatedly over-represented in recommendation lists, leading to a feedback loop that further amplifies this bias. Although extensive research has addressed this issue in model-based or neighborhood-based recommendation algorithms, less attention has been paid to online recommendation models, such as those based on top-K contextual bandits, where recommendation models are dynamically updated with ongoing user feedback. In this paper, we study exposure bias in a class of well-known contextual bandit algorithms known as Linear Cascading Bandits. We analyze these algorithms in their ability to handle exposure bias and provide a fair representation of items in the recommendation results. Our analysis reveals that these algorithms fail to mitigate exposure bias in the long run during the course of ongoing user interactions. We propose an Exposure-Aware reward model that updates the model parameters based on two factors: 1) implicit user feedback and 2) the position of the item in the recommendation list. The proposed model mitigates exposure bias by controlling the utility assigned to the items based on their exposure in the recommendation list. Our experiments with two real-world datasets show that our proposed reward model improves the exposure fairness of the linear cascading bandits over time while maintaining the recommendation accuracy. It also outperforms the current baselines. Finally, we prove a high probability upper regret bound for our proposed model, providing theoretical guarantees for its performance.
- Abstract(参考訳): 露光バイアスは、レコメンデーション結果にアイテムやサプライヤーが等しく表されないレコメンデーションシステムにおいてよく知られた問題である。
このバイアスは、いくつかの項目がレコメンデーションリストで繰り返し表現されるため、時間とともに特に問題になり、フィードバックループがこのバイアスをさらに増幅します。
モデルベースや地区ベースのレコメンデーションアルゴリズムではこの問題に多くの研究が取り組んできたが、オンラインレコメンデーションモデルにはあまり関心が向けられず、例えばトップKのコンテキスト帯に基づくレコメンデーションモデルでは、ユーザのフィードバックによってリコメンデーションモデルが動的に更新される。
本稿では,Linear Cascading Banditsとして知られる,よく知られた文脈的帯域幅アルゴリズムのクラスにおける露出バイアスについて検討する。
我々は,これらのアルゴリズムを露出バイアスに対処する能力として分析し,推奨結果の項目を公平に表現する。
分析の結果,これらのアルゴリズムは,継続的なユーザインタラクションの過程において,長期にわたって露光バイアスを軽減できないことが明らかとなった。
モデルパラメータを2つの要因に基づいて更新する Exposure-Aware rewardモデルを提案する。
1)暗黙のユーザフィードバック
2 推薦リストの項目の位置
提案モデルでは,各項目に割り当てられたユーティリティをレコメンデーションリストの露出に基づいて制御することにより,露出バイアスを軽減する。
実世界の2つのデータセットを用いた実験により,提案した報奨モデルにより,線形カスケード帯域の露光公正性を時間とともに改善し,レコメンデーション精度を維持した。
また、現在のベースラインよりも優れています。
最後に、提案したモデルに対して高い確率上の後悔を証明し、その性能を理論的に保証する。
関連論文リスト
- Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Debiased Model-based Interactive Recommendation [22.007617148466807]
textbfidentible textbfDebiased textbfModel-based textbfInteractive textbfRecommendation(略してtextbfiDMIR)と呼ばれるモデルを開発する。
最初の欠点として、識別保証を伴う時間変化レコメンデーション生成プロセスの因果メカニズムに基づいて、偏見付き因果世界モデルを考案する。
第2の欠点として、偏りのある対照的な学習と一致し、サンプリングバイアスを避ける、偏りのある対照的な政策を考案する。
論文 参考訳(メタデータ) (2024-02-24T14:10:04Z) - Debiasing the Cloze Task in Sequential Recommendation with Bidirectional
Transformers [0.0]
Inverse Propensity Scoring (IPS) は、問題の時間的性質を考慮しないため、逐次的なレコメンデーションに拡張されない。
そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-22T21:44:25Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Debiased Recommendation with Neural Stratification [19.841871819722016]
我々は、露光密度を増大させることにより、より正確なIPS計算のためにユーザをクラスタ化することを提案する。
提案手法の有効性を実証するために,実世界のデータセットに基づく広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-15T15:45:35Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Debiased Explainable Pairwise Ranking from Implicit Feedback [0.3867363075280543]
BPR(Bayesian Personalized Ranking)に焦点をあてる。
BPRはアウトプットを説明しないブラックボックスモデルであり、ユーザのレコメンデーションに対する信頼を制限する。
本稿では,項目に基づく説明とともにレコメンデーションを生成する新しい説明可能な損失関数と,それに対応する行列分解モデルを提案する。
論文 参考訳(メタデータ) (2021-07-30T17:19:37Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Fairness-Aware Explainable Recommendation over Knowledge Graphs [73.81994676695346]
ユーザのアクティビティのレベルに応じて異なるグループのユーザを分析し、異なるグループ間での推奨パフォーマンスにバイアスが存在することを確認する。
不活性なユーザは、不活性なユーザのためのトレーニングデータが不十分なため、不満足なレコメンデーションを受けやすい可能性がある。
本稿では、知識グラフに対する説明可能な推奨という文脈で、この問題を緩和するために再ランク付けすることで、公平性に制約されたアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-03T05:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。