論文の概要: Beyond Normality: Reliable A/B Testing with Non-Gaussian Data
- arxiv url: http://arxiv.org/abs/2510.23666v1
- Date: Sun, 26 Oct 2025 14:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.330445
- Title: Beyond Normality: Reliable A/B Testing with Non-Gaussian Data
- Title(参考訳): 正規性を超えて - 非ガウスデータによる信頼性の高いA/Bテスト
- Authors: Junpeng Gong, Chunkai Wang, Hao Li, Jinyong Ma, Haoxuan Li, Xu He,
- Abstract要約: 我々は、スキューで長い尾の長いデータと不等割当歪みの誤差率を定量化し、$t$-testが有効であるのに必要な最小サンプルサイズについて明示的な公式を導出する。
多くのオンラインフィードバックメトリクスは、信頼できるA/Bテストを保証するのに、何億ものサンプルが必要です。
- 参考スコア(独自算出の注目度): 15.568830806973407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A/B testing has become the cornerstone of decision-making in online markets, guiding how platforms launch new features, optimize pricing strategies, and improve user experience. In practice, we typically employ the pairwise $t$-test to compare outcomes between the treatment and control groups, thereby assessing the effectiveness of a given strategy. To be trustworthy, these experiments must keep Type I error (i.e., false positive rate) under control; otherwise, we may launch harmful strategies. However, in real-world applications, we find that A/B testing often fails to deliver reliable results. When the data distribution departs from normality or when the treatment and control groups differ in sample size, the commonly used pairwise $t$-test is no longer trustworthy. In this paper, we quantify how skewed, long tailed data and unequal allocation distort error rates and derive explicit formulas for the minimum sample size required for the $t$-test to remain valid. We find that many online feedback metrics require hundreds of millions samples to ensure reliable A/B testing. Thus we introduce an Edgeworth-based correction that provides more accurate $p$-values when the available sample size is limited. Offline experiments on a leading A/B testing platform corroborate the practical value of our theoretical minimum sample size thresholds and demonstrate that the corrected method substantially improves the reliability of A/B testing in real-world conditions.
- Abstract(参考訳): A/Bテストは、プラットフォームが新機能のローンチ方法、価格戦略の最適化、ユーザエクスペリエンスの向上を導くことで、オンライン市場における意思決定の基盤となっている。
実際に、我々は通常、対の$t$-testを用いて、治療群と対照群の比較を行い、与えられた戦略の有効性を評価する。
信頼できることに、これらの実験はタイプIの誤り(すなわち偽陽性率)を抑える必要がある。
しかし、現実のアプリケーションでは、A/Bテストは信頼性の高い結果を出すのに失敗することが多い。
データ分布が正常性から外れた場合や、処理と制御グループがサンプルサイズが異なる場合、一般的に使用される$t$-testはもはや信頼できない。
本稿では、スキューで長い尾の長いデータと不等配置の歪み誤差率を定量化し、$t$-testが有効であるために必要な最小サンプルサイズについて明示的な公式を導出する。
多くのオンラインフィードバックメトリクスは、信頼できるA/Bテストを保証するのに、何億ものサンプルが必要です。
したがって、利用可能なサンプルサイズが制限された場合により正確な$p$値を提供するEdgeworthベースの補正を導入する。
先行するA/Bテストプラットフォームにおけるオフライン実験は,我々の理論上の最小サンプルサイズ閾値の実用的価値を相関させ,修正手法が実環境におけるA/Bテストの信頼性を著しく向上することを示す。
関連論文リスト
- $t$-Testing the Waters: Empirically Validating Assumptions for Reliable A/B-Testing [3.988614978933934]
A/BテストはWeb上での実験的な設計の基礎であり、広範囲のアプリケーションとユースケースがある。
本稿では,$t$-testの仮定が満たされ,A/B-testが有効かどうかを検証するための実用的な手法を提案する。
これにより、$t$-testの仮定が満たされ、A/B-testが有効かどうかを経験的に評価する、効率的で効果的な方法が提供される。
論文 参考訳(メタデータ) (2025-02-07T09:55:24Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。
本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。
この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - Model-free Test Time Adaptation for Out-Of-Distribution Detection [62.49795078366206]
我々はtextbfDistribution textbfDetection (abbr) のための非パラメトリックテスト時間 textbfAdaptation フレームワークを提案する。
Abbrは、オンラインテストサンプルを使用して、テスト中のモデル適応、データ分散の変更への適応性を向上させる。
複数のOOD検出ベンチマークにおける包括的実験により,abrの有効性を示す。
論文 参考訳(メタデータ) (2023-11-28T02:00:47Z) - Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T21:54:36Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。