論文の概要: Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests
- arxiv url: http://arxiv.org/abs/2407.01036v3
- Date: Wed, 20 Aug 2025 11:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 14:45:44.030212
- Title: Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests
- Title(参考訳): Liftsによるランク付け: 大規模A/Bテストに対するコストベネフィットアプローチ
- Authors: Pallavi Basu, Ron Berman,
- Abstract要約: A/Bテストは、特にデジタルプラットフォームや市場において、ビジネス実験における意思決定のための中核的なツールである。
本稿では、コスト重み付き偽発見率(FDR)の制約を受けることにより、期待される利益を最大化する決定論的枠組みを開発する。
提案手法は, 提案手法を用いて, 予測昇降率とコストとの比に基づいて実験をランク付けし, 局所的偽発見率(lfdr)を重要な統計量として組み込んだ実験ベイズ手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A/B testing is a core tool for decision-making in business experimentation, particularly in digital platforms and marketplaces. Practitioners often prioritize lift in performance metrics while seeking to control the costs of false discoveries. This paper develops a decision-theoretic framework for maximizing expected profit subject to a constraint on the cost-weighted false discovery rate (FDR). We propose an empirical Bayes approach that uses a greedy knapsack algorithm to rank experiments based on the ratio of expected lift to cost, incorporating the local false discovery rate (lfdr) as a key statistic. The resulting oracle rule is valid and rank-optimal. In large-scale settings, we establish the asymptotic validity of a data-driven implementation and demonstrate superior finite-sample performance over existing FDR-controlling methods. An application to A/B tests run on the Optimizely platform highlights the business value of the approach.
- Abstract(参考訳): A/Bテストは、特にデジタルプラットフォームや市場において、ビジネス実験における意思決定のための中核的なツールである。
実践者は、誤った発見のコストをコントロールしながら、パフォーマンス指標の上昇を優先することが多い。
本稿では,コスト重み付き偽発見率(FDR)の制約による期待利益を最大化するための決定論的枠組みを開発する。
提案手法は, 提案手法を用いて, 予測昇降率とコストとの比に基づいて実験をランク付けし, 局所的偽発見率(lfdr)を重要な統計量として組み込んだ実験ベイズ手法を提案する。
結果として生じるオラクルの規則は有効であり、ランクが最適である。
大規模設定では、データ駆動実装の漸近的妥当性を確立し、既存のFDR制御法よりも優れた有限サンプル性能を示す。
Optimizelyプラットフォーム上で実行されるA/Bテストのアプリケーションは、アプローチのビジネス価値を強調します。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - $t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing [3.988614978933934]
A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。
本稿では,$t$-testの仮定が満たされ,A/B-testが有効かどうかを検証するための実用的な手法を提案する。
これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
論文 参考訳(メタデータ) (2025-02-07T09:55:24Z) - An Upper Confidence Bound Approach to Estimating the Maximum Mean [0.0]
本研究では, 上限値の最大値の推定について, 上限値 (UCB) を用いて検討した。
両推定器の強い一貫性、平均二乗誤差、中央極限定理(CLT)を含む統計的保証を確立する。
論文 参考訳(メタデータ) (2024-08-08T02:53:09Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Boosting Fair Classifier Generalization through Adaptive Priority Reweighing [59.801444556074394]
より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。
本稿では,トレーニングデータとテストデータ間の分散シフトがモデル一般化性に与える影響を解消する適応的リライジング手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T13:04:55Z) - A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy
Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial
Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。
提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。
提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T10:36:21Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Optimal Treatment Regimes for Proximal Causal Learning [7.672587258250301]
そこで本研究では,橋梁における結果と治療の相違に基づく最適な個別化治療体制を提案する。
この新たな最適治療体制の価値関数は,文献上に存在するものよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:29:25Z) - Empirical Bayesian Approaches for Robust Constraint-based Causal
Discovery under Insufficient Data [38.883810061897094]
因果発見法は、多くの実世界のデータセットではそうではないかもしれないデータ飽和度を仮定する。
本研究では,制約に基づく因果探索手法の性能向上を図るため,ベイジアンによる頻繁な独立性試験を提案する。
実験の結果,SOTA法よりも精度と効率が向上した。
論文 参考訳(メタデータ) (2022-06-16T21:08:49Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Assessment of Treatment Effect Estimators for Heavy-Tailed Data [70.72363097550483]
ランダム化制御試験(RCT)における治療効果の客観的評価における中心的な障害は、その性能をテストするための基礎的真理(または検証セット)の欠如である。
この課題に対処するための新しいクロスバリデーションのような方法論を提供する。
本手法は,Amazonサプライチェーンに実装された709RCTに対して評価を行った。
論文 参考訳(メタデータ) (2021-12-14T17:53:01Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Understanding and Mitigating the Limitations of Prioritized Experience
Replay [46.663239542920984]
優先順位付け再生体験(ER)は、多くのドメインでサンプル効率を改善するために実証的に示されている。
平均二乗誤差に対する誤差に基づく優先サンプリング法と立方体電力損失に対する一様サンプリング法との等価性を示す。
次に,早期学習における一様サンプリングによる収束率の向上について理論的考察を行った。
論文 参考訳(メタデータ) (2020-07-19T03:10:02Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - PAPRIKA: Private Online False Discovery Rate Control [27.698099204682105]
サンプルの差分プライバシーの制約の下で, 仮説テストにおけるFalse Discovery Rate (FDR) の制御について検討した。
我々は、非プライベートなオンラインFDR制御における最先端の結果に基づく新しいプライベートアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-27T18:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。