論文の概要: Variance Reduction in Ratio Metrics for Efficient Online Experiments
- arxiv url: http://arxiv.org/abs/2401.04062v1
- Date: Mon, 8 Jan 2024 18:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:49:37.258444
- Title: Variance Reduction in Ratio Metrics for Efficient Online Experiments
- Title(参考訳): 効率的なオンライン実験のための比率尺度のばらつき低減
- Authors: Shubham Baweja, Neeti Pokharna, Aleksei Ustimenko and Olivier Jeunen
- Abstract要約: 大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
- 参考スコア(独自算出の注目度): 12.036747050794135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online controlled experiments, such as A/B-tests, are commonly used by modern
tech companies to enable continuous system improvements. Despite their
paramount importance, A/B-tests are expensive: by their very definition, a
percentage of traffic is assigned an inferior system variant. To ensure
statistical significance on top-level metrics, online experiments typically run
for several weeks. Even then, a considerable amount of experiments will lead to
inconclusive results (i.e. false negatives, or type-II error). The main culprit
for this inefficiency is the variance of the online metrics. Variance reduction
techniques have been proposed in the literature, but their direct applicability
to commonly used ratio metrics (e.g. click-through rate or user retention) is
limited.
In this work, we successfully apply variance reduction techniques to ratio
metrics on a large-scale short-video platform: ShareChat. Our empirical results
show that we can either improve A/B-test confidence in 77% of cases, or can
retain the same level of confidence with 30% fewer data points. Importantly, we
show that the common approach of including as many covariates as possible in
regression is counter-productive, highlighting that control variates based on
Gradient-Boosted Decision Tree predictors are most effective. We discuss the
practicalities of implementing these methods at scale and showcase the cost
reduction they beget.
- Abstract(参考訳): A/Bテストのようなオンライン制御実験は、現代の技術企業が継続的システム改善を実現するために一般的に使われている。
最重要にもかかわらず、A/Bテストは高価であり、その定義上、トラフィックのパーセンテージは劣るシステムの変種に割り当てられる。
トップレベルのメトリクスで統計的に重要なことを保証するため、オンライン実験は通常数週間にわたって行われる。
それでも、かなりの量の実験が決定不可能な結果(例えば、偽陰性またはタイプIIエラー)につながる。
この非効率性の主な原因は、オンラインメトリクスのばらつきである。
文献ではばらつき低減技術が提案されているが、一般的に使用される比率(クリックスルー率やユーザ保持率など)への直接的な適用性は限られている。
そこで本研究では,大規模なショートビデオプラットフォームであるShareChat上で,分散低減手法の比率測定に成功している。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,30%少ないデータポイントで同一レベルの信頼性を維持することができることがわかった。
重要なのは,回帰に可能な限り多くの共変量を含む一般的なアプローチは非生産的であることを示し,勾配ブースト決定木予測系に基づく制御変動が最も効果的であることを強調する。
本稿では,これらの手法を大規模に実装し,コスト削減を実証する。
関連論文リスト
- Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T21:54:36Z) - What is the state of the art? Accounting for multiplicity in machine
learning benchmark performance [0.0]
SOTAの最大性能を推定として用いることは偏りのある推定器であり、過度に楽観的な結果を与える。
精度が高い場合に、どのように影響が制限されるかを示す。
実世界の例である、2020年のKaggleコンペティションについて論じる。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Clustering-based Imputation for Dropout Buyers in Large-scale Online
Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。
本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。
不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文 参考訳(メタデータ) (2022-09-09T01:05:53Z) - Variance Reduction for Policy-Gradient Methods via Empirical Variance
Minimization [69.32510868632988]
強化学習における政策段階的な手法は、勾配推定の高分散に悩まされる。
本稿では,実証変動(EV)と呼ばれる装置の性能について,初めて検討する。
実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
論文 参考訳(メタデータ) (2022-06-14T13:18:49Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Revisiting Few-sample BERT Fine-tuning [46.898445984766894]
本稿では,BERTの文脈表現の微調整について述べる。
私たちはこの不安定を引き起こすいくつかの要因を特定します。
近年,BERTを用いた小サンプル微調整の改良手法が提案されている。
論文 参考訳(メタデータ) (2020-06-10T17:57:03Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。