論文の概要: Doubly-Robust Estimation for Unbiased Learning-to-Rank from
Position-Biased Click Feedback
- arxiv url: http://arxiv.org/abs/2203.17118v1
- Date: Thu, 31 Mar 2022 15:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 20:47:43.340979
- Title: Doubly-Robust Estimation for Unbiased Learning-to-Rank from
Position-Biased Click Feedback
- Title(参考訳): 位置偏差クリックフィードバックによる非偏差学習の2倍ロバスト推定
- Authors: Harrie Oosterhuis
- Abstract要約: IPS推定の代わりにランク毎の待遇を期待する新しいDR推定器を提案する。
我々の結果は、最適な性能で収束するためには、桁違いに少ないデータポイントを必要とすることを示唆している。
- 参考スコア(独自算出の注目度): 13.579420996461439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clicks on rankings suffer from position bias: generally items on lower ranks
are less likely to be examined - and thus clicked - by users, in spite of their
actual preferences between items. The prevalent approach to unbiased
click-based Learning-to-Rank (LTR) is based on counterfactual
Inverse-Propensity-Scoring (IPS) estimation. Unique about LTR is the fact that
standard Doubly-Robust (DR) estimation - which combines IPS with regression
predictions - is inapplicable since the treatment variable - indicating whether
a user examined an item - cannot be observed in the data. In this paper, we
introduce a novel DR estimator that uses the expectation of treatment per rank
instead. Our novel DR estimator has more robust unbiasedness conditions than
the existing IPS approach, and in addition, provides enormous decreases in
variance: our experimental results indicate it requires several orders of
magnitude fewer datapoints to converge at optimal performance. For the unbiased
LTR field, our DR estimator contributes both increases in state-of-the-art
performance and the most robust theoretical guarantees of all known LTR
estimators.
- Abstract(参考訳): ランキングのクリックは位置バイアスに苦しむ:一般的に低いランクのアイテムは、アイテム間の実際の好みにもかかわらず、ユーザーによって検査される可能性が低く、従ってクリックされる。
LTR(Learning-to-Rank)に対する一般的なアプローチは、逆ファクトな逆プロペンシティ・スコアリング(IPS)推定に基づいている。
ltrのユニークな点は、ipsと回帰予測を組み合わせた標準の二重ロバスト(dr)推定が、治療変数(ユーザーが項目を調べたかどうかを示す)がデータで観察できないため、適用できないという事実である。
本稿では,ランクごとの待遇を期待する新しいDR推定器を提案する。
我々の新しいDR推定器は既存のIPS手法よりも頑健な不偏性条件を持ち、また分散の大幅な減少をもたらす。
偏りのないLTRの分野では、DR推定器は最先端性能の向上と、既知のLTR推定器の最も堅牢な理論的保証の両方に寄与する。
関連論文リスト
- Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Doubly Robust Off-Policy Evaluation for Ranking Policies under the
Cascade Behavior Model [11.101369123145588]
ランキングポリシのオフライン評価は、ログデータのみを使用して、新たなランキングポリシのパフォーマンス推定を可能にする。
従来の研究では、アイテム空間をトラクタブルにするために、ユーザ行動に関するいくつかの仮定が紹介されていた。
本稿では,ランキングの上位位置から次々にアイテムと対話するカスケード2倍ロバスト推定器を提案する。
論文 参考訳(メタデータ) (2022-02-03T12:42:33Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z) - Non-Clicks Mean Irrelevant? Propensity Ratio Scoring As a Correction [40.98264176722163]
Propensity Ratio Scoring (PRS)は、クリックと非クリックの両方の処理を提供する。
実験により,PRSがより効果的なクリックデータの利用を保証し,GMail検索による実世界の大規模データと合成データの両方の性能を向上させることを確認した。
論文 参考訳(メタデータ) (2020-05-18T06:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。