論文の概要: Off-Policy Evaluation of Ranking Policies under Diverse User Behavior
- arxiv url: http://arxiv.org/abs/2306.15098v1
- Date: Mon, 26 Jun 2023 22:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:19:13.921498
- Title: Off-Policy Evaluation of Ranking Policies under Diverse User Behavior
- Title(参考訳): 異種ユーザ行動下におけるランク付け政策の評価
- Authors: Haruka Kiyohara, Masatoshi Uehara, Yusuke Narita, Nobuyuki Shimizu,
Yasuo Yamamoto, Yuta Saito
- Abstract要約: Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
- 参考スコア(独自算出の注目度): 25.226825574282937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ranking interfaces are everywhere in online platforms. There is thus an ever
growing interest in their Off-Policy Evaluation (OPE), aiming towards an
accurate performance evaluation of ranking policies using logged data. A
de-facto approach for OPE is Inverse Propensity Scoring (IPS), which provides
an unbiased and consistent value estimate. However, it becomes extremely
inaccurate in the ranking setup due to its high variance under large action
spaces. To deal with this problem, previous studies assume either independent
or cascade user behavior, resulting in some ranking versions of IPS. While
these estimators are somewhat effective in reducing the variance, all existing
estimators apply a single universal assumption to every user, causing excessive
bias and variance. Therefore, this work explores a far more general formulation
where user behavior is diverse and can vary depending on the user context. We
show that the resulting estimator, which we call Adaptive IPS (AIPS), can be
unbiased under any complex user behavior. Moreover, AIPS achieves the minimum
variance among all unbiased estimators based on IPS. We further develop a
procedure to identify the appropriate user behavior model to minimize the mean
squared error (MSE) of AIPS in a data-driven fashion. Extensive experiments
demonstrate that the empirical accuracy improvement can be significant,
enabling effective OPE of ranking systems even under diverse user behavior.
- Abstract(参考訳): ランキングインターフェースは、オンラインプラットフォームの至る所にある。
そのため、ログデータを使用したランキングポリシーの正確なパフォーマンス評価を目指して、Off-Policy Evaluation (OPE) への関心が高まっている。
OPEのデファクトアプローチは、不偏で一貫した値推定を提供する逆不等式スコアリング(IPS)である。
しかし、大きな行動空間下での分散度が高いため、ランキング設定では極めて不正確になる。
この問題に対処するため、以前の研究では、独立系かカスケード系のユーザー行動を想定しており、IPSのランキングバージョンがいくつか存在する。
これらの推定子は分散を減らすのに幾分効果的であるが、既存の推定者は全てのユーザーに単一の普遍的な仮定を適用し、過度のバイアスと分散を引き起こす。
そこで本研究では,ユーザの行動がより多様で,ユーザコンテキストによって異なる,より一般的な定式化について検討する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
さらに、AIPSは、IPSに基づく全ての非バイアス推定器の最小分散を達成する。
さらに,データ駆動方式でAIPSの平均二乗誤差(MSE)を最小化するために,適切なユーザ行動モデルを特定する手順を開発する。
広範囲な実験により、経験的精度の向上が重要となり、多様なユーザの振る舞いの下でも、ランキングシステムの効果的なOPEが可能となった。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Inverse Propensity Score based offline estimator for deterministic
ranking lists using position bias [0.1269104766024433]
本稿では,位置バイアスモデルを用いた新しいIPS計算手法を提案する。
産業規模データに対する2つの異なる実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-08-31T17:32:04Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Doubly-Robust Estimation for Unbiased Learning-to-Rank from
Position-Biased Click Feedback [13.579420996461439]
IPS推定の代わりにランク毎の待遇を期待する新しいDR推定器を提案する。
我々の結果は、最適な性能で収束するためには、桁違いに少ないデータポイントを必要とすることを示唆している。
論文 参考訳(メタデータ) (2022-03-31T15:38:25Z) - Doubly Robust Off-Policy Evaluation for Ranking Policies under the
Cascade Behavior Model [11.101369123145588]
ランキングポリシのオフライン評価は、ログデータのみを使用して、新たなランキングポリシのパフォーマンス推定を可能にする。
従来の研究では、アイテム空間をトラクタブルにするために、ユーザ行動に関するいくつかの仮定が紹介されていた。
本稿では,ランキングの上位位置から次々にアイテムと対話するカスケード2倍ロバスト推定器を提案する。
論文 参考訳(メタデータ) (2022-02-03T12:42:33Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。