論文の概要: $t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing
- arxiv url: http://arxiv.org/abs/2502.04793v1
- Date: Fri, 07 Feb 2025 09:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:29.948290
- Title: $t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing
- Title(参考訳): $t$-Testing the Waters: 信頼性のあるA/Bテストの仮定を実証的に検証する
- Authors: Olivier Jeunen,
- Abstract要約: A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。
本稿では,$t$-testの仮定が満たされ,A/B-testが有効かどうかを検証するための実用的な手法を提案する。
これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
- 参考スコア(独自算出の注目度): 3.988614978933934
- License:
- Abstract: A/B-tests are a cornerstone of experimental design on the web, with wide-ranging applications and use-cases. The statistical $t$-test comparing differences in means is the most commonly used method for assessing treatment effects, often justified through the Central Limit Theorem (CLT). The CLT ascertains that, as the sample size grows, the sampling distribution of the Average Treatment Effect converges to normality, making the $t$-test valid for sufficiently large sample sizes. When outcome measures are skewed or non-normal, quantifying what "sufficiently large" entails is not straightforward. To ensure that confidence intervals maintain proper coverage and that $p$-values accurately reflect the false positive rate, it is critical to validate this normality assumption. We propose a practical method to test this, by analysing repeatedly resampled A/A-tests. When the normality assumption holds, the resulting $p$-value distribution should be uniform, and this property can be tested using the Kolmogorov-Smirnov test. This provides an efficient and effective way to empirically assess whether the $t$-test's assumptions are met, and the A/B-test is valid. We demonstrate our methodology and highlight how it helps to identify scenarios prone to inflated Type-I errors. Our approach provides a practical framework to ensure and improve the reliability and robustness of A/B-testing practices.
- Abstract(参考訳): A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。
手段の違いを比較する統計的$t$-testは治療効果を評価する最も一般的な方法であり、しばしば中央限界定理(CLT)を通して正当化される。
CLTは、サンプルサイズが大きくなるにつれて、平均処理効果のサンプリング分布が正規性に収束し、十分大きなサンプルサイズに対して$t$-testが有効であることを確認した。
結果測度が歪んだり、正常でない場合、"十分大きな"内容の定量化は簡単ではない。
信頼区間が適切なカバレッジを維持し、$p$-値が偽陽性率を正確に反映することを保証するためには、この正規性仮定を検証することが重要である。
本稿では,繰り返し再サンプリングされたA/Aテストを分析し,これをテストする実用的な方法を提案する。
正規性仮定が成立すると、結果として生じる$p$-値分布は均一であり、この性質はコルモゴロフ・スミルノフテスト(英語版)を用いてテストできる。
これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
当社の方法論を実証し、インフレーションされたType-Iエラーのシナリオを特定するのにどのように役立つかを強調します。
私たちのアプローチは、A/Bテストプラクティスの信頼性と堅牢性を保証するための実践的なフレームワークを提供します。
関連論文リスト
- An Upper Confidence Bound Approach to Estimating the Maximum Mean [0.0]
本研究では, 上限値の最大値の推定について, 上限値 (UCB) を用いて検討した。
両推定器の強い一貫性、平均二乗誤差、中央極限定理(CLT)を含む統計的保証を確立する。
論文 参考訳(メタデータ) (2024-08-08T02:53:09Z) - Model-free Test Time Adaptation for Out-Of-Distribution Detection [62.49795078366206]
我々はtextbfDistribution textbfDetection (abbr) のための非パラメトリックテスト時間 textbfAdaptation フレームワークを提案する。
Abbrは、オンラインテストサンプルを使用して、テスト中のモデル適応、データ分散の変更への適応性を向上させる。
複数のOOD検出ベンチマークにおける包括的実験により,abrの有効性を示す。
論文 参考訳(メタデータ) (2023-11-28T02:00:47Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy
Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial
Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。
提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。
提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T10:36:21Z) - Stable Probability Weighting: Large-Sample and Finite-Sample Estimation
and Inference Methods for Heterogeneous Causal Effects of Multivalued
Treatments Under Limited Overlap [0.0]
異種因果効果を推定・推定するための実用的大サンプルおよび有限サンプル法を提案する。
安定確率重み付け(Stable Probability Weighting)という一般原理を考案する。
また、弱null仮説の一般クラスをテストするための新しい有限サンプル推論手法を提案する。
論文 参考訳(メタデータ) (2023-01-13T18:52:18Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Cost-aware Generalized $\alpha$-investing for Multiple Hypothesis
Testing [5.521213530218833]
非自明なデータ収集コストを伴う逐次多重仮説テストの問題点を考察する。
この問題は、病気の過程の異なる発現遺伝子を識別するための生物学的実験を行うときに発生する。
我々は,$alpha$-wealthの長期的挙動を理論的に分析し,$alpha$-investing決定規則のサンプルサイズを考慮した。
論文 参考訳(メタデータ) (2022-10-31T17:39:32Z) - Sequential Permutation Testing of Random Forest Variable Importance
Measures [68.8204255655161]
そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
論文 参考訳(メタデータ) (2022-06-02T20:16:50Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Nonparametric Inference under B-bits Quantization [5.958064620718292]
そこで本研究では,B$ビットに量子化されたサンプルに基づく非パラメトリック試験手法を提案する。
特に、B$が一定の閾値を超えると、提案した非パラメトリックテスト手順が古典的なミニマックステスト率を達成することを示す。
論文 参考訳(メタデータ) (2019-01-24T18:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。