論文の概要: Inverse Propensity Score based offline estimator for deterministic
ranking lists using position bias
- arxiv url: http://arxiv.org/abs/2208.14980v1
- Date: Wed, 31 Aug 2022 17:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:58:13.805243
- Title: Inverse Propensity Score based offline estimator for deterministic
ranking lists using position bias
- Title(参考訳): 位置バイアスを用いた逆確率スコアに基づく決定論的ランキングリストのオフライン推定
- Authors: Nick Wood and Sumit Sidana
- Abstract要約: 本稿では,位置バイアスモデルを用いた新しいIPS計算手法を提案する。
産業規模データに対する2つの異なる実験により,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.1269104766024433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present a novel way of computing IPS using a position-bias
model for deterministic logging policies. This technique significantly widens
the policies on which OPE can be used. We validate this technique using two
different experiments on industry-scale data. The OPE results are clearly
strongly correlated with the online results, with some constant bias. The
estimator requires the examination model to be a reasonably accurate
approximation of real user behaviour.
- Abstract(参考訳): 本研究では,位置バイアスモデルを用いた新しいIPS計算手法を提案する。
この技術はOPEが利用できるポリシーを大幅に広げる。
産業規模のデータに対する2つの異なる実験を用いて,この手法を検証する。
OPEの結果はオンラインの結果と強く相関しており、一定のバイアスがある。
推定器は、検査モデルを実際のユーザ行動の合理的な近似として要求する。
関連論文リスト
- Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Off-Policy Evaluation of Ranking Policies under Diverse User Behavior [25.226825574282937]
Inverse Propensity Scoring (IPS) は、大きなアクション空間下での高分散のため、ランキング設定において極めて不正確なものとなる。
この研究は、ユーザの振る舞いが多様であり、ユーザコンテキストによって異なるという、はるかに一般的な定式化を探求する。
結果,Adaptive IPS (AIPS) と呼ばれる推定器は,複雑なユーザ動作下では非バイアス化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-26T22:31:15Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Policy-Adaptive Estimator Selection for Off-Policy Evaluation [12.1655494876088]
Off-policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの性能を正確に評価することを目的としている。
本稿では,OPEにおける推定器選択の課題を初めて考察する。
特に、利用可能なログデータを適切にサブサンプリングし、擬似ポリシーを構築することにより、与えられたOPEタスクに適応する推定子選択を可能にする。
論文 参考訳(メタデータ) (2022-11-25T05:31:42Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Data-Driven Off-Policy Estimator Selection: An Application in User
Marketing on An Online Content Delivery Service [11.986224119327387]
医療、マーケティング、レコメンデーションシステムといった分野では、非政治的な評価が不可欠である。
理論的背景を持つ多くのOPE法が提案されている。
特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。
論文 参考訳(メタデータ) (2021-09-17T15:53:53Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Off-Policy Evaluation via Adaptive Weighting with Data from Contextual
Bandits [5.144809478361604]
本研究では,2重に重み付けすることで2重に頑健な (DR) 推定器を改良し,その分散を制御した。
推定器の精度向上と既存の代替手段に対する推論特性に関する実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-06-03T17:54:44Z) - Taking the Counterfactual Online: Efficient and Unbiased Online
Evaluation for Ranking [74.46448041224247]
データロギングのポリシーを最適化する新しいロギング・ポリシ最適化アルゴリズム(LogOpt)を導入する。
LogOptは、ログポリシーに無関係な反ファクト的なアプローチをオンラインアプローチに変換し、アルゴリズムが表示すべきランキングを決定する。
オンライン評価手法として、LogOptは既存のインターリービング方法とは異なり、位置と項目選択バイアスに偏りがないことが証明されている。
論文 参考訳(メタデータ) (2020-07-24T18:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。