論文の概要: Doubly Robust Off-Policy Evaluation for Ranking Policies under the
Cascade Behavior Model
- arxiv url: http://arxiv.org/abs/2202.01562v1
- Date: Thu, 3 Feb 2022 12:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 13:27:20.617619
- Title: Doubly Robust Off-Policy Evaluation for Ranking Policies under the
Cascade Behavior Model
- Title(参考訳): カスケード行動モデルによるランク付け政策の二重ロバストなオフポリシー評価
- Authors: Haruka Kiyohara, Yuta Saito, Tatsuya Matsuhiro, Yusuke Narita,
Nobuyuki Shimizu, Yasuo Yamamoto
- Abstract要約: ランキングポリシのオフライン評価は、ログデータのみを使用して、新たなランキングポリシのパフォーマンス推定を可能にする。
従来の研究では、アイテム空間をトラクタブルにするために、ユーザ行動に関するいくつかの仮定が紹介されていた。
本稿では,ランキングの上位位置から次々にアイテムと対話するカスケード2倍ロバスト推定器を提案する。
- 参考スコア(独自算出の注目度): 11.101369123145588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world recommender systems and search engines, optimizing ranking
decisions to present a ranked list of relevant items is critical. Off-policy
evaluation (OPE) for ranking policies is thus gaining a growing interest
because it enables performance estimation of new ranking policies using only
logged data. Although OPE in contextual bandits has been studied extensively,
its naive application to the ranking setting faces a critical variance issue
due to the huge item space. To tackle this problem, previous studies introduce
some assumptions on user behavior to make the combinatorial item space
tractable. However, an unrealistic assumption may, in turn, cause serious bias.
Therefore, appropriately controlling the bias-variance tradeoff by imposing a
reasonable assumption is the key for success in OPE of ranking policies. To
achieve a well-balanced bias-variance tradeoff, we propose the Cascade Doubly
Robust estimator building on the cascade assumption, which assumes that a user
interacts with items sequentially from the top position in a ranking. We show
that the proposed estimator is unbiased in more cases compared to existing
estimators that make stronger assumptions. Furthermore, compared to a previous
estimator based on the same cascade assumption, the proposed estimator reduces
the variance by leveraging a control variate. Comprehensive experiments on both
synthetic and real-world data demonstrate that our estimator leads to more
accurate OPE than existing estimators in a variety of settings.
- Abstract(参考訳): 現実世界のレコメンダシステムや検索エンジンでは,関連する項目のランクリストを表示するためのランキング決定の最適化が重要である。
これにより、ログデータのみを使用して新しいランキングポリシーのパフォーマンス評価が可能になるため、ランキングポリシーのオフポリシー評価(ope)への関心が高まっている。
文脈的包帯におけるOPEは広範に研究されているが、そのランキング設定への素質的な適用は、巨大なアイテム空間のために重要な分散問題に直面している。
この問題に対処するため, 過去の研究では, 組み合わせ項目空間をトラクタブルにするために, ユーザ行動に関するいくつかの仮定を導入している。
しかし、非現実的な仮定は真剣なバイアスを引き起こす可能性がある。
したがって、合理的な仮定によってバイアス分散トレードオフを適切に制御することが、ランキングポリシーのOPEの成功の鍵となる。
そこで本研究では,ユーザがランキングの上位位置から順次アイテムと対話することを前提として,カスケード仮定に基づく2重ロバストな推定システムを提案する。
提案する推定器は,より強い仮定をする既存の推定器と比較して,多くのケースで偏りがないことを示す。
さらに、同じカスケード仮定に基づく以前の推定器と比較して、提案した推定器は、制御変数を利用して分散を低減する。
合成データと実世界のデータの両方に関する総合的な実験により、我々の推定器は様々な環境で既存の推定器よりも正確なOPEをもたらすことが示された。
関連論文リスト
- Rate-Optimal Rank Aggregation with Private Pairwise Rankings [12.511220449652384]
我々は、ペアのランキングに基づいてランクアグリゲーションの実用性を確保しつつ、プライバシを保護するという課題に対処する。
そこで本研究では,ランダム化応答機構からランキングを適応的にデバイアスする手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:05:55Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。