Fugu-MT 論文翻訳(概要): Variance Reduction in Ratio Metrics for Efficient Online Experiments

論文の概要: Variance Reduction in Ratio Metrics for Efficient Online Experiments

arxiv url: http://arxiv.org/abs/2401.04062v1
Date: Mon, 8 Jan 2024 18:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 14:49:37.258444
Title: Variance Reduction in Ratio Metrics for Efficient Online Experiments
Title（参考訳）: 効率的なオンライン実験のための比率尺度のばらつき低減
Authors: Shubham Baweja, Neeti Pokharna, Aleksei Ustimenko and Olivier Jeunen
Abstract要約: 大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
参考スコア（独自算出の注目度）: 12.036747050794135
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online controlled experiments, such as A/B-tests, are commonly used by modern tech companies to enable continuous system improvements. Despite their paramount importance, A/B-tests are expensive: by their very definition, a percentage of traffic is assigned an inferior system variant. To ensure statistical significance on top-level metrics, online experiments typically run for several weeks. Even then, a considerable amount of experiments will lead to inconclusive results (i.e. false negatives, or type-II error). The main culprit for this inefficiency is the variance of the online metrics. Variance reduction techniques have been proposed in the literature, but their direct applicability to commonly used ratio metrics (e.g. click-through rate or user retention) is limited. In this work, we successfully apply variance reduction techniques to ratio metrics on a large-scale short-video platform: ShareChat. Our empirical results show that we can either improve A/B-test confidence in 77% of cases, or can retain the same level of confidence with 30% fewer data points. Importantly, we show that the common approach of including as many covariates as possible in regression is counter-productive, highlighting that control variates based on Gradient-Boosted Decision Tree predictors are most effective. We discuss the practicalities of implementing these methods at scale and showcase the cost reduction they beget.
Abstract（参考訳）: A/Bテストのようなオンライン制御実験は、現代の技術企業が継続的システム改善を実現するために一般的に使われている。最重要にもかかわらず、A/Bテストは高価であり、その定義上、トラフィックのパーセンテージは劣るシステムの変種に割り当てられる。トップレベルのメトリクスで統計的に重要なことを保証するため、オンライン実験は通常数週間にわたって行われる。それでも、かなりの量の実験が決定不可能な結果(例えば、偽陰性またはタイプIIエラー)につながる。この非効率性の主な原因は、オンラインメトリクスのばらつきである。文献ではばらつき低減技術が提案されているが、一般的に使用される比率(クリックスルー率やユーザ保持率など)への直接的な適用性は限られている。そこで本研究では,大規模なショートビデオプラットフォームであるShareChat上で,分散低減手法の比率測定に成功している。その結果,77%の症例でA/Bテストの信頼性を向上できるか,30%少ないデータポイントで同一レベルの信頼性を維持することができることがわかった。重要なのは,回帰に可能な限り多くの共変量を含む一般的なアプローチは非生産的であることを示し,勾配ブースト決定木予測系に基づく制御変動が最も効果的であることを強調する。本稿では,これらの手法を大規模に実装し,コスト削減を実証する。

関連論文リスト

Post Launch Evaluation of Policies in a High-Dimensional Setting [4.710921988115686]
A/Bテスト(A/B test)またはランダム化制御実験(RCTs)は、新しいポリシー、製品、決定の影響を評価するための金の標準である。本稿では「合成制御」にインスパイアされた方法論の適用に関する実践的考察を考察する。合成制御法は、影響を受けていない単位からのデータを利用して、処理された単位に対する対実的な結果を推定する。
論文参考訳（メタデータ） (2024-12-30T19:35:29Z)
Powerful A/B-Testing Metrics and Where to Find Them [11.018341970786574]
A/Bテストは、現実世界のレコメンデーションシステム評価のパンとバターである。ノーススター計量は、どの系の変種が優れているとみなすべきかを評価するために用いられる。我々は,この情報を収集し,興味のある指標に対するタイプI,タイプII,タイプIIIエラーの定量化に活用することを提案する。大規模なショートビデオプラットフォームであるShareChatとMojに対して,このパイプラインを大規模に構築する際の成果と洞察を提示する。
論文参考訳（メタデータ） (2024-07-30T08:59:50Z)
STATE: A Robust ATE Estimator of Heavy-Tailed Metrics for Variance Reduction in Online Controlled Experiments [22.32661807469984]
我々は、学生のt分布と機械学習ツールを統合して、ヘビーテールのメトリクスに適合する新しいフレームワークを開発する。ログ類似度関数を最適化するために変分EM法を採用することにより、アウトリアの負の影響を大幅に排除するロバストな解を推測できる。 Meituan実験プラットフォーム上での合成データと長期実験結果のシミュレーションにより,本手法の有効性を実証した。
論文参考訳（メタデータ） (2024-07-23T09:35:59Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文参考訳（メタデータ） (2023-06-09T21:54:36Z)
Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文参考訳（メタデータ） (2023-03-10T10:32:18Z)
Clustering-based Imputation for Dropout Buyers in Large-scale Online Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文参考訳（メタデータ） (2022-09-09T01:05:53Z)
Variance Reduction for Policy-Gradient Methods via Empirical Variance Minimization [69.32510868632988]
強化学習における政策段階的な手法は、勾配推定の高分散に悩まされる。本稿では,実証変動(EV)と呼ばれる装置の性能について,初めて検討する。実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。
論文参考訳（メタデータ） (2022-06-14T13:18:49Z)
Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。実験結果から,これらの手法が直面する課題を分析した。本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文参考訳（メタデータ） (2022-03-23T07:33:37Z)
ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文参考訳（メタデータ） (2020-12-02T00:07:53Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。