論文の概要: Data-Driven Off-Policy Estimator Selection: An Application in User
Marketing on An Online Content Delivery Service
- arxiv url: http://arxiv.org/abs/2109.08621v1
- Date: Fri, 17 Sep 2021 15:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 17:11:38.807878
- Title: Data-Driven Off-Policy Estimator Selection: An Application in User
Marketing on An Online Content Delivery Service
- Title(参考訳): データ駆動型オフポリシー推定器の選択:オンラインコンテンツ配信サービスにおけるユーザマーケティングの応用
- Authors: Yuta Saito, Takuma Udagawa, and Kei Tateno
- Abstract要約: 医療、マーケティング、レコメンデーションシステムといった分野では、非政治的な評価が不可欠である。
理論的背景を持つ多くのOPE法が提案されている。
特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。
- 参考スコア(独自算出の注目度): 11.986224119327387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) is the method that attempts to estimate the
performance of decision making policies using historical data generated by
different policies without conducting costly online A/B tests. Accurate OPE is
essential in domains such as healthcare, marketing or recommender systems to
avoid deploying poor performing policies, as such policies may hart human lives
or destroy the user experience. Thus, many OPE methods with theoretical
backgrounds have been proposed. One emerging challenge with this trend is that
a suitable estimator can be different for each application setting. It is often
unknown for practitioners which estimator to use for their specific
applications and purposes. To find out a suitable estimator among many
candidates, we use a data-driven estimator selection procedure for off-policy
policy performance estimators as a practical solution. As proof of concept, we
use our procedure to select the best estimator to evaluate coupon treatment
policies on a real-world online content delivery service. In the experiment, we
first observe that a suitable estimator might change with different definitions
of the outcome variable, and thus the accurate estimator selection is critical
in real-world applications of OPE. Then, we demonstrate that, by utilizing the
estimator selection procedure, we can easily find out suitable estimators for
each purpose.
- Abstract(参考訳): オフ政治評価(Off-policy Evaluation、OPE)とは、オンラインA/Bテストを行うことなく、異なる政策によって生成された歴史的データを用いて意思決定ポリシーのパフォーマンスを推定する手法である。
正確なOPEは、医療、マーケティング、レコメンデータシステムといった分野において、人間の生活を損なったり、ユーザーエクスペリエンスを損なうような、貧弱な実行ポリシーの展開を避けるために不可欠である。
したがって、理論的背景を持つ多くのOPE手法が提案されている。
このトレンドに対する新たな課題のひとつは、アプリケーション設定毎に適切な推定器が異なる可能性があることだ。
特定の用途や目的のために使用すると見積もる実践者にとって、しばしば不明である。
多くの候補の中から適切な推定値を求めるために,データ駆動型推定値選択手法を用いて,政策外の業績推定値を求める。
概念実証として,実世界のオンラインコンテンツ配信サービス上でクーポン処理ポリシーを評価するための最適な推定器を選択する。
実験では,結果変数の異なる定義で適切な推定器が変化しうることを最初に観察し,OPEの実世界の応用において正確な推定器選択が重要であることを示した。
そして, 推定器選択手法を用いて, 各目的に適した推定器を容易に発見できることを実証した。
関連論文リスト
- Automated Off-Policy Estimator Selection via Supervised Learning [7.476028372444458]
オフ・ポリティ・アセスメント(OPE)問題(Off-Policy Evaluation)は、相手が収集したデータを用いて、対実的なポリシーの性能を評価することである。
OPEの問題を解決するために,我々は,ロギングポリシに代えて配置された場合の対策策が持つパフォーマンスを,最も正確な方法で推定することを目的とした推定器を利用する。
教師付き学習に基づく自動データ駆動型OPE推定器選択法を提案する。
論文 参考訳(メタデータ) (2024-06-26T02:34:48Z) - OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators [13.408838970377035]
オフライン政策評価(OPE)により、新たなシーケンシャルな意思決定方針のパフォーマンスを評価し、見積もることができる。
統計的手法を用いた明示的な選択に頼ることなく,データセットに与えられたOPE推定器の集合を適応的にブレンドするアルゴリズムを提案する。
我々の研究は、オフラインRLのための汎用的、推定対象に依存しない、非政治評価フレームワークの使いやすさの向上に寄与する。
論文 参考訳(メタデータ) (2024-05-27T23:51:20Z) - $Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies [13.528097424046823]
Inverse Propensity Scoring estimator に基づいた$Deltatext-rm OPE$メソッドを提案する。
シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-05-16T12:04:55Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Policy-Adaptive Estimator Selection for Off-Policy Evaluation [12.1655494876088]
Off-policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの性能を正確に評価することを目的としている。
本稿では,OPEにおける推定器選択の課題を初めて考察する。
特に、利用可能なログデータを適切にサブサンプリングし、擬似ポリシーを構築することにより、与えられたOPEタスクに適応する推定子選択を可能にする。
論文 参考訳(メタデータ) (2022-11-25T05:31:42Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Evaluating the Robustness of Off-Policy Evaluation [10.760026478889664]
Off-policy Evaluation (OPE)は、オフラインログデータのみを活用する仮説的ポリシーの性能を評価する。
オンラインインタラクションが高利得と高価な設定を含むアプリケーションでは特に有用である。
我々は,OPE推定器のロバスト性を評価する実験手法であるIEOE(Interpretable Evaluation for Offline Evaluation)を開発した。
論文 参考訳(メタデータ) (2021-08-31T09:33:13Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。