論文の概要: Epsilon non-Greedy: A Bandit Approach for Unbiased Recommendation via
Uniform Data
- arxiv url: http://arxiv.org/abs/2310.04855v1
- Date: Sat, 7 Oct 2023 15:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 15:08:31.357363
- Title: Epsilon non-Greedy: A Bandit Approach for Unbiased Recommendation via
Uniform Data
- Title(参考訳): Epsilon non-Greedy:Bandit Approach for Unbiased Recommendation via Uniform Data (特集:情報ネットワーク)
- Authors: S.M.F. Sani, Seyed Abbas Hosseini, Hamid R. Rabiee
- Abstract要約: 近年の研究では、少量の偏りのないデータを収集することで、自己フィードバックループバイアスを軽減する試みが行われている。
本稿では,一様に収集された少量のデータを用いて,偏りのない推定器を学習するフレームワークを提案する。
我々は、リコメンデーションシステムにおける実世界の継続的トレーニングシナリオをシミュレートする、新しいオフラインシーケンシャルトレーニングスキーマを導入する。
- 参考スコア(独自算出の注目度): 3.2534959204741085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Often, recommendation systems employ continuous training, leading to a
self-feedback loop bias in which the system becomes biased toward its previous
recommendations. Recent studies have attempted to mitigate this bias by
collecting small amounts of unbiased data. While these studies have
successfully developed less biased models, they ignore the crucial fact that
the recommendations generated by the model serve as the training data for
subsequent training sessions. To address this issue, we propose a framework
that learns an unbiased estimator using a small amount of uniformly collected
data and focuses on generating improved training data for subsequent training
iterations. To accomplish this, we view recommendation as a contextual
multi-arm bandit problem and emphasize on exploring items that the model has a
limited understanding of. We introduce a new offline sequential training schema
that simulates real-world continuous training scenarios in recommendation
systems, offering a more appropriate framework for studying self-feedback bias.
We demonstrate the superiority of our model over state-of-the-art debiasing
methods by conducting extensive experiments using the proposed training schema.
- Abstract(参考訳): 多くの場合、レコメンデーションシステムは継続的トレーニングを採用しており、システムが以前のレコメンデーションに偏る自己フィードバックループバイアスにつながる。
近年の研究は、少量の偏りのないデータを収集することで、このバイアスを緩和しようと試みている。
これらの研究はバイアスの少ないモデルの開発に成功したが、モデルによって生成されたレコメンデーションがその後のトレーニングセッションのトレーニングデータとなるという重要な事実を無視している。
この問題に対処するために,少量の収集データを用いて偏りのない推定子を学習し,その後のトレーニングイテレーションで改良されたトレーニングデータを生成することに焦点を当てたフレームワークを提案する。
これを実現するために,レコメンデーションを文脈的マルチアームバンディット問題として捉え,モデルが限定的な理解を持っている項目の探索に重点を置く。
我々は,レコメンデーションシステムにおける実世界の継続的トレーニングシナリオをシミュレートするオフラインシーケンシャルトレーニングスキーマを新たに導入し,自己フィードバックバイアスを研究するためのより適切なフレームワークを提供する。
提案するトレーニングスキーマを用いた広範囲な実験を行い,最先端のデバイアス手法よりも優れたモデルを示す。
関連論文リスト
- Pre-trained Recommender Systems: A Causal Debiasing Perspective [19.712997823535066]
本研究では,異なるドメインから抽出した汎用ユーザ・イテムインタラクションデータをトレーニングすることで,ユニバーサルインタラクションパターンをキャプチャする汎用レコメンデータを開発する。
実験により,提案モデルにより,ゼロショットと少数ショットの学習環境での推薦性能が大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T03:37:32Z) - Tackling Interference Induced by Data Training Loops in A/B Tests: A Weighted Training Approach [6.028247638616059]
重み付けトレーニングと呼ばれる新しいアプローチを導入する。
このアプローチでは、治療データと制御データの両方に現れる各データポイントの確率を予測するために、モデルをトレーニングする必要がある。
本手法は, トレーニング分布の変化を起こさない全ての推定器において, 最小分散を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-26T15:52:34Z) - Language Models Get a Gender Makeover: Mitigating Gender Bias with
Few-Shot Data Interventions [50.67412723291881]
事前訓練された大きな言語モデルに存在する社会的バイアスが重要な問題である。
我々は,事前学習モデルにおける性別バイアスを低減するために,データ介入戦略を強力かつ簡単な手法として提案する。
論文 参考訳(メタデータ) (2023-06-07T16:50:03Z) - Towards More Robust and Accurate Sequential Recommendation with
Cascade-guided Adversarial Training [54.56998723843911]
シーケンシャルレコメンデーションモデルの性質に特有の2つの特性は、その堅牢性を損なう可能性がある。
本稿では,シーケンシャルレコメンデーションモデルに特化して設計された,新たな逆行訓練法であるカスケード誘導逆行訓練を提案する。
論文 参考訳(メタデータ) (2023-04-11T20:55:02Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Top-N Recommendation with Counterfactual User Preference Simulation [26.597102553608348]
ユーザーランキングに基づく好みの学習を目的としたTop-Nレコメンデーションは、長い間、広範囲のアプリケーションにおいて基本的な問題だった。
本稿では,データ不足問題に対処するため,因果推論フレームワーク内での推薦タスクの再構築を提案する。
論文 参考訳(メタデータ) (2021-09-02T14:28:46Z) - Knowledge Transfer via Pre-training for Recommendation: A Review and
Prospect [89.91745908462417]
実験による推薦システムに対する事前学習の利点を示す。
事前学習を伴うレコメンデータシステムの今後の研究に向けて,いくつかの将来的な方向性について論じる。
論文 参考訳(メタデータ) (2020-09-19T13:06:27Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。