論文の概要: Counterfactual Risk Minimization with IPS-Weighted BPR and Self-Normalized Evaluation in Recommender Systems
- arxiv url: http://arxiv.org/abs/2509.00333v1
- Date: Sat, 30 Aug 2025 03:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.183197
- Title: Counterfactual Risk Minimization with IPS-Weighted BPR and Self-Normalized Evaluation in Recommender Systems
- Title(参考訳): IPS重み付きBPRによるリスク最小化とレコメンダシステムにおける自己Normalized Evaluation
- Authors: Rahul Raja, Arpita Vats,
- Abstract要約: 逆相対性スコア(IPS)は、このバイアスを補正するが、しばしば高いばらつきと不安定さに悩まされる。
IPS重み付きトレーニングとIPS重み付きベイズパーソナライズされたランク付け目標を統合した,シンプルで効果的なパイプラインを提案する。
合成およびMovieLens 100Kデータによる実験により、我々のアプローチは偏りのない露光下でより一般化されることが示された。
- 参考スコア(独自算出の注目度): 3.5507492850515323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning and evaluating recommender systems from logged implicit feedback is challenging due to exposure bias. While inverse propensity scoring (IPS) corrects this bias, it often suffers from high variance and instability. In this paper, we present a simple and effective pipeline that integrates IPS-weighted training with an IPS-weighted Bayesian Personalized Ranking (BPR) objective augmented by a Propensity Regularizer (PR). We compare Direct Method (DM), IPS, and Self-Normalized IPS (SNIPS) for offline policy evaluation, and demonstrate how IPS-weighted training improves model robustness under biased exposure. The proposed PR further mitigates variance amplification from extreme propensity weights, leading to more stable estimates. Experiments on synthetic and MovieLens 100K data show that our approach generalizes better under unbiased exposure while reducing evaluation variance compared to naive and standard IPS methods, offering practical guidance for counterfactual learning and evaluation in real-world recommendation settings.
- Abstract(参考訳): ログ化された暗黙のフィードバックからレコメンダシステムの学習と評価は、露出バイアスのため難しい。
逆相対性スコア(IPS)はこのバイアスを補正するが、しばしば高いばらつきと不安定さに悩まされる。
本稿では, IPS重み付きトレーニングとIPS重み付きベイズ個人化ランキング(BPR)を併用した簡易かつ効果的なパイプラインを提案する。
我々は、オフラインポリシー評価において、ダイレクトメソッド(DM)、IPS(IPS)、SNIPS(Self-Normalized IPS)を比較し、IPS重み付きトレーニングがバイアス曝露下でモデルロバスト性をどのように改善するかを実証する。
提案したPRは、極度の相対性重みによる分散増幅をさらに緩和し、より安定した推定をもたらす。
合成およびMovieLens 100Kデータを用いた実験により,本手法は実世界の推奨設定における対実的学習と評価のための実践的ガイダンスを提供することにより,非偏光下での一般化を図りつつ,評価のばらつきを低減した。
関連論文リスト
- Practical Improvements of A/B Testing with Off-Policy Estimation [51.25970890274447]
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
論文 参考訳(メタデータ) (2025-06-12T13:11:01Z) - Off-Policy Evaluation of Ranking Policies via Embedding-Space User Behavior Modeling [0.0]
大規模なランク付け行動空間を有するランキング設定における非政治的評価は、新しいレコメンデーションポリシーを評価する上で不可欠である。
我々は2つの新しい仮定を導入する: ランキングに直接的な影響はなく、ユーザー行動モデルがランキングの埋め込み空間に直接的な影響を与えることはない。
次に,統計的に望ましい特性を持つ一般化された辺化逆確率スコア推定器を提案する。
論文 参考訳(メタデータ) (2025-05-31T07:58:53Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - On the Reuse Bias in Off-Policy Reinforcement Learning [28.29153543457396]
Reuse Biasは、評価と最適化のためのリプレイバッファの再利用によって生じる、政治外の評価のバイアスである。
本稿では,リプレイバッファのデータによる現在の政策の非政治的評価と最適化が,目的を過大評価する結果となることを示す。
本稿では,新しいBIRIS(Bias-Regularized Importance Smpling)フレームワークと,Reuse Biasの悪影響を軽減する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-15T06:20:36Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Understanding the Effects of Adversarial Personalized Ranking
Optimization Method on Recommendation Quality [6.197934754799158]
ベイズパーソナライズランキング(BPR)とAPR最適化フレームワークの学習特性をモデル化する。
APRがBPRよりも人気バイアスを増大させるのは、ショートヘッドアイテムからの肯定的な更新が不均衡に多いためである。
論文 参考訳(メタデータ) (2021-07-29T10:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。