論文の概要: Practical Improvements of A/B Testing with Off-Policy Estimation
- arxiv url: http://arxiv.org/abs/2506.10677v2
- Date: Fri, 13 Jun 2025 06:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:02.045321
- Title: Practical Improvements of A/B Testing with Off-Policy Estimation
- Title(参考訳): オフポリティ推定によるA/Bテストの実践的改善
- Authors: Otmane Sakhi, Alexandre Gilotte, David Rohde,
- Abstract要約: 従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
提案手法の有効性と実用性を理論的に検証した。
- 参考スコア(独自算出の注目度): 51.25970890274447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of A/B testing, a widely used protocol for evaluating the potential improvement achieved by a new decision system compared to a baseline. This protocol segments the population into two subgroups, each exposed to a version of the system and estimates the improvement as the difference between the measured effects. In this work, we demonstrate that the commonly used difference-in-means estimator, while unbiased, can be improved. We introduce a family of unbiased off-policy estimators that achieves lower variance than the standard approach. Among this family, we identify the estimator with the lowest variance. The resulting estimator is simple, and offers substantial variance reduction when the two tested systems exhibit similarities. Our theoretical analysis and experimental results validate the effectiveness and practicality of the proposed method.
- Abstract(参考訳): A/Bテスト(A/B test)は,新しい意思決定システムによって達成される潜在的な改善を,ベースラインと比較して評価するための広く利用されているプロトコルである。
このプロトコルは、人口を2つのサブグループに分割し、それぞれがシステムのバージョンに露出し、その改善を測定結果の差として推定する。
本研究では, 平均差分推定器の偏りはあるものの, 平均差分推定器を改良できることを実証する。
従来の手法よりも分散度を低くする非バイアスのオフ・ポリティクス推定器のファミリーを導入する。
このうち、最も分散度が低い推定器を同定する。
得られた推定器は単純で、2つの試験された系が類似性を示すと、かなり分散が減少する。
提案手法の有効性と実用性を理論的に検証した。
関連論文リスト
- Exogenous Matching: Learning Good Proposals for Tractable Counterfactual Estimation [1.9662978733004601]
本稿では, 抽出可能かつ効率的な対実表現推定のための重要サンプリング手法を提案する。
対物推定器の共通上限を最小化することにより、分散最小化問題を条件分布学習問題に変換する。
構造因果モデル (Structure Causal Models, SCM) の様々なタイプと設定による実験による理論的結果の検証と, 対実推定タスクにおける性能の実証を行った。
論文 参考訳(メタデータ) (2024-10-17T03:08:28Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Robust Bayesian Subspace Identification for Small Data Sets [91.3755431537592]
分散効果を低減するため,正規化推定器,縮小推定器,ベイズ推定器を提案する。
実験の結果,提案した推定器は従来の部分空間法よりも40%のコストで推定リスクを低減できることがわかった。
論文 参考訳(メタデータ) (2022-12-29T00:29:04Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Robust and flexible learning of a high-dimensional classification rule
using auxiliary outcomes [2.92281985958308]
我々は,高次元線形決定ルールを補助的な結果の存在下で推定する伝達学習手法を開発した。
最終推定器は,1つの利害関係のみを用いた推定よりも低い推定誤差が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T01:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。