論文の概要: Off-Policy Evaluation for Recommendations with Missing-Not-At-Random Rewards
- arxiv url: http://arxiv.org/abs/2502.08993v1
- Date: Thu, 13 Feb 2025 06:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:19.021438
- Title: Off-Policy Evaluation for Recommendations with Missing-Not-At-Random Rewards
- Title(参考訳): Not-At-Random Rewards の勧告に対するOff-Policy Evaluation
- Authors: Tatsuki Takahashi, Chihiro Maru, Hiroko Shoji,
- Abstract要約: アンバイアスド・レコメンダラー・ラーニング(URL)とオフ・ポリティクス・アセスメント・ラーニング(OPE/L)技術は、表示位置とロギングポリシーによって引き起こされるデータのバイアスに対処するのに有効である。
しかし、両方のバイアスが記録されたデータから出ると、これらの推定子は重大なバイアスに悩まされる可能性がある。
本稿では,ログポリシと報奨観測の2つの確率を確率スコアとして活用する新しい推定器を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Unbiased recommender learning (URL) and off-policy evaluation/learning (OPE/L) techniques are effective in addressing the data bias caused by display position and logging policies, thereby consistently improving the performance of recommendations. However, when both bias exits in the logged data, these estimators may suffer from significant bias. In this study, we first analyze the position bias of the OPE estimator when rewards are missing not at random. To mitigate both biases, we propose a novel estimator that leverages two probabilities of logging policies and reward observations as propensity scores. Our experiments demonstrate that the proposed estimator achieves superior performance compared to other estimators, even as the levels of bias in reward observations increases.
- Abstract(参考訳): アンバイアスド・レコメンダラー・ラーニング(URL)とオフ・ポリティクス・アセスメント・ラーニング(OPE/L)技術は、表示位置やロギングポリシーによって引き起こされるデータのバイアスに対処し、レコメンデーションのパフォーマンスを継続的に改善するのに有効である。
しかし、両方のバイアスが記録されたデータから出ると、これらの推定子は重大なバイアスに悩まされる可能性がある。
本研究では,OPE推定器の位置偏りをランダムに解析する。
両バイアスを緩和するために,ログポリシの2つの確率と報奨観測を確率スコアとして活用する新しい推定器を提案する。
本実験は,報奨観測の偏りが増大しても,提案した推定器が他の推定器と比較して優れた性能を発揮することを示す。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Measuring Recency Bias In Sequential Recommendation Systems [4.797371814812293]
シーケンシャルレコメンデーションシステムにおける頻度バイアス(Recency bias)とは、ユーザセッション内の最近の項目に過度に重きを置くことを指す。
このバイアスは、レコメンデーションのセレンディピティーを低下させ、システムの長期的関心を捉える能力を妨げます。
本論文は,リレーレンシバイアスの定量化に特化して設計された,単純かつ効果的な新しい計量法を提案する。
論文 参考訳(メタデータ) (2024-09-15T13:02:50Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Debiasing Learning for Membership Inference Attacks Against Recommender
Systems [79.48353547307887]
学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。
我々は,推薦者システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。
本稿では,4つの主要コンポーネントを持つリコメンダシステム(DL-MIA)フレームワークに対する,メンバシップ推論攻撃に対するバイアス学習を提案する。
論文 参考訳(メタデータ) (2022-06-24T17:57:34Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。