論文の概要: Learning Metrics that Maximise Power for Accelerated A/B-Tests
- arxiv url: http://arxiv.org/abs/2402.03915v2
- Date: Thu, 13 Jun 2024 12:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 23:55:19.887759
- Title: Learning Metrics that Maximise Power for Accelerated A/B-Tests
- Title(参考訳): 加速A/Bテストのためのパワーを最大化する学習メトリクス
- Authors: Olivier Jeunen, Aleksei Ustimenko,
- Abstract要約: ノーススター測度は通常遅延し、感度が低い。
実験は長い時間実行する必要があるが、それでも型IIエラーは多い。
短期的な信号からメトリクスを学習することで、この問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 13.528097424046823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online controlled experiments are a crucial tool to allow for confident decision-making in technology companies. A North Star metric is defined (such as long-term revenue or user retention), and system variants that statistically significantly improve on this metric in an A/B-test can be considered superior. North Star metrics are typically delayed and insensitive. As a result, the cost of experimentation is high: experiments need to run for a long time, and even then, type-II errors (i.e. false negatives) are prevalent. We propose to tackle this by learning metrics from short-term signals that directly maximise the statistical power they harness with respect to the North Star. We show that existing approaches are prone to overfitting, in that higher average metric sensitivity does not imply improved type-II errors, and propose to instead minimise the $p$-values a metric would have produced on a log of past experiments. We collect such datasets from two social media applications with over 160 million Monthly Active Users each, totalling over 153 A/B-pairs. Empirical results show that we are able to increase statistical power by up to 78% when using our learnt metrics stand-alone, and by up to 210% when used in tandem with the North Star. Alternatively, we can obtain constant statistical power at a sample size that is down to 12% of what the North Star requires, significantly reducing the cost of experimentation.
- Abstract(参考訳): オンラインのコントロールされた実験は、テクノロジー企業にとって確実な意思決定を可能にする重要なツールだ。
ノーススター計量は(長期収益やユーザー保持のような)定義されており、A/Bテストにおいてこの計量を統計的に著しく改善するシステム変種の方が優れているとみなすことができる。
ノーススター測度は通常遅延し、感度が低い。
その結果、実験のコストは高く、実験は長時間実行する必要があるが、それでもタイプIIエラー(つまり偽陰性)が一般的である。
我々は、ノーススターに対して使用する統計力を直接最大化する短期的な信号からメトリクスを学習することで、この問題に取り組むことを提案する。
既存の手法は過度に適合する傾向があり、平均的な計量感度が高いとタイプIIの誤差が改善しないことが示され、代わりに過去の実験のログ上でメートル法が生成したであろう$p$-値の最小化を提案する。
1億6000万の月間アクティブユーザーを持つ2つのソーシャルメディアアプリケーションからこのようなデータセットを収集し、合計で153以上のA/Bペアを集めています。
実験の結果、学習したメトリクスをスタンドアローンで使うと、統計能力が最大で78%向上し、ノーススターと接して使うと最大で210%向上できることがわかった。
あるいは、北星が要求する量の12%以下のサンプルサイズで一定の統計力を得ることができ、実験のコストを大幅に削減することができる。
関連論文リスト
- Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - Choosing a Proxy Metric from Past Experiments [54.338884612982405]
多くのランダム化実験では、長期的な計量の処理効果は測定が困難または不可能であることが多い。
一般的な方法は、いくつかの短期的プロキシメトリクスを計測して、長期的メトリックを綿密に追跡することである。
ランダム化実験の同種集団において最適なプロキシメトリックを定義し構築するための新しい統計フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-14T17:43:02Z) - Performance Issue Identification in Cloud Systems with
Relational-Temporal Anomaly Detection [5.473091770227683]
パフォーマンス上の問題は、大規模なクラウドサービスシステムに浸透し、大きな収益損失をもたらす可能性がある。
信頼性の高いパフォーマンスを保証するためには、サービス監視メトリクスを使用してこれらの問題を正確に識別することが不可欠です。
いくつかの既存手法は、異常を検出するために各計量を独立に解析することでこの問題に対処している。
論文 参考訳(メタデータ) (2023-07-20T13:41:26Z) - Pareto optimal proxy metrics [62.997667081978825]
プロキシメトリクスは、北の恒星の8倍の感度を持ち、常に同じ方向に移動することを示す。
我々は,大規模産業レコメンデーションシステムによる実験に方法論を適用した。
論文 参考訳(メタデータ) (2023-07-03T13:29:14Z) - Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T21:54:36Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Improving Semi-supervised Federated Learning by Reducing the Gradient
Diversity of Models [67.66144604972052]
Federated Learning(FL)は、ユーザのプライバシを維持しながらモバイルデバイスのコンピューティングパワーを使用する、有望な方法だ。
テスト精度に影響を与える重要な問題は、異なるユーザーからのモデルの勾配の多様性であることを示す。
本稿では,FedAvg平均化を代替するグループモデル平均化手法を提案する。
論文 参考訳(メタデータ) (2020-08-26T03:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。