論文の概要: Powerful A/B-Testing Metrics and Where to Find Them
- arxiv url: http://arxiv.org/abs/2407.20665v1
- Date: Tue, 30 Jul 2024 08:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:50:05.629842
- Title: Powerful A/B-Testing Metrics and Where to Find Them
- Title(参考訳): パワフルなA/Bテストメトリクスとその発見方法
- Authors: Olivier Jeunen, Shubham Baweja, Neeti Pokharna, Aleksei Ustimenko,
- Abstract要約: A/Bテストは、現実世界のレコメンデーションシステム評価のパンとバターである。
ノーススター計量は、どの系の変種が優れているとみなすべきかを評価するために用いられる。
我々は,この情報を収集し,興味のある指標に対するタイプI,タイプII,タイプIIIエラーの定量化に活用することを提案する。
大規模なショートビデオプラットフォームであるShareChatとMojに対して,このパイプラインを大規模に構築する際の成果と洞察を提示する。
- 参考スコア(独自算出の注目度): 11.018341970786574
- License:
- Abstract: Online controlled experiments, colloquially known as A/B-tests, are the bread and butter of real-world recommender system evaluation. Typically, end-users are randomly assigned some system variant, and a plethora of metrics are then tracked, collected, and aggregated throughout the experiment. A North Star metric (e.g. long-term growth or revenue) is used to assess which system variant should be deemed superior. As a result, most collected metrics are supporting in nature, and serve to either (i) provide an understanding of how the experiment impacts user experience, or (ii) allow for confident decision-making when the North Star metric moves insignificantly (i.e. a false negative or type-II error). The latter is not straightforward: suppose a treatment variant leads to fewer but longer sessions, with more views but fewer engagements; should this be considered a positive or negative outcome? The question then becomes: how do we assess a supporting metric's utility when it comes to decision-making using A/B-testing? Online platforms typically run dozens of experiments at any given time. This provides a wealth of information about interventions and treatment effects that can be used to evaluate metrics' utility for online evaluation. We propose to collect this information and leverage it to quantify type-I, type-II, and type-III errors for the metrics of interest, alongside a distribution of measurements of their statistical power (e.g. $z$-scores and $p$-values). We present results and insights from building this pipeline at scale for two large-scale short-video platforms: ShareChat and Moj; leveraging hundreds of past experiments to find online metrics with high statistical power.
- Abstract(参考訳): A/Bテスト(A/B-tests)として知られるオンライン制御実験は、実世界のレコメンデータシステム評価のパンとバターである。
通常、エンドユーザはランダムにシステム変種に割り当てられ、多数のメトリクスが追跡され、収集され、実験全体を通して集約される。
ノーススター計量(例えば長期的成長または収益)は、どのシステム変種が優れているとみなすべきかを評価するために用いられる。
その結果、ほとんどの収集されたメトリクスは本質的にサポートされており、どちらにも役立ちます。
一 実験がユーザ体験にどう影響するか、又は
(II) ノーススター計量が無意味に動くとき(すなわち偽陰性またはタイプII誤差)、確実な意思決定を可能にする。
治療の亜種がより少ないが長いセッションにつながると仮定し、より多くのビューを持つが、より少ないエンゲージメントをもたらすと仮定する。
A/Bテストによる意思決定において,支援指標の有用性を評価するには,どうすればよいのか?
オンラインプラットフォームは通常、いつでも何十もの実験を実行します。
これは、介入と治療効果に関する豊富な情報を提供し、オンライン評価のためのメトリクスのユーティリティを評価するのに使用できる。
本稿では,この情報を収集し,興味のある指標に対するタイプI,タイプII,タイプIIIのエラーの定量化と,その統計的パワー(例えば$z$-scores,$p$-values)の分布化を提案する。
大規模なショートビデオプラットフォームであるShareChatとMojについて、このパイプラインを大規模に構築することによる結果と洞察を提示します。
関連論文リスト
- Comprehensive Equity Index (CEI): Definition and Application to Bias Evaluation in Biometrics [47.762333925222926]
本稿では,機械学習モデルのバイアス行動の定量化のための新しい指標を提案する。
顔認識システムの運用評価に焦点をあて,適用する。
論文 参考訳(メタデータ) (2024-09-03T14:19:38Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Learning Metrics that Maximise Power for Accelerated A/B-Tests [13.528097424046823]
ノーススター測度は通常遅延し、感度が低い。
実験は長い時間実行する必要があるが、それでも型IIエラーは多い。
短期的な信号からメトリクスを学習することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-06T11:31:04Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - Choosing a Proxy Metric from Past Experiments [54.338884612982405]
多くのランダム化実験では、長期的な計量の処理効果は測定が困難または不可能であることが多い。
一般的な方法は、いくつかの短期的プロキシメトリクスを計測して、長期的メトリックを綿密に追跡することである。
ランダム化実験の同種集団において最適なプロキシメトリックを定義し構築するための新しい統計フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-14T17:43:02Z) - A Common Misassumption in Online Experiments with Machine Learning
Models [1.52292571922932]
変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。
実践者や研究文献に対する影響について論じる。
論文 参考訳(メタデータ) (2023-04-21T11:36:44Z) - Choose Your Lenses: Flaws in Gender Bias Evaluation [29.16221451643288]
ジェンダーバイアス評価の現在のパラダイムを評価し、その中のいくつかの欠陥を同定する。
まず、あるタスクにおけるモデルのパフォーマンスがジェンダーによってどのように影響を受けるかを測定する、外在バイアス指標の重要性を強調する。
第二に、データセットとメトリクスが頻繁に結合されていることを発見し、それらの結合がいかにして信頼できる結論を得る能力を妨げているかについて議論する。
論文 参考訳(メタデータ) (2022-10-20T17:59:55Z) - Clustering-based Imputation for Dropout Buyers in Large-scale Online
Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。
本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。
不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文 参考訳(メタデータ) (2022-09-09T01:05:53Z) - On Quantitative Evaluations of Counterfactuals [88.42660013773647]
本稿では、分析と実験を通じて、視覚的対実例の評価に関する研究を集約する。
ほとんどのメトリクスは、十分な単純なデータセットを意図して振る舞うが、複雑さが増加すると、良い結果と悪い結果の違いを判断できないものもいる。
私たちはラベル変動スコアとOracleスコアという2つの新しい指標を提案しています。
論文 参考訳(メタデータ) (2021-10-30T05:00:36Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。