論文の概要: Rapid and Scalable Bayesian AB Testing
- arxiv url: http://arxiv.org/abs/2307.14628v1
- Date: Thu, 27 Jul 2023 05:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:38:09.321471
- Title: Rapid and Scalable Bayesian AB Testing
- Title(参考訳): 迅速かつスケーラブルなベイズ型ab試験
- Authors: Srivas Chennu, Andrew Maher, Christian Pangerl, Subash Prabanantham,
Jae Hyeon Bae, Jamie Martin and Bud Goswami
- Abstract要約: 本稿では,現在のAB試験手法の限界に対処するため,階層ベイズ推定を適用した手法を提案する。
因子間の相関を利用して統計的パワーを高め、逐次テストと進行早期停止を可能にする。
また、過去のABテストから複合グローバルラーニングを抽出できるように、この方法論をどのように拡張できるかを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AB testing aids business operators with their decision making, and is
considered the gold standard method for learning from data to improve digital
user experiences. However, there is usually a gap between the requirements of
practitioners, and the constraints imposed by the statistical hypothesis
testing methodologies commonly used for analysis of AB tests. These include the
lack of statistical power in multivariate designs with many factors,
correlations between these factors, the need of sequential testing for early
stopping, and the inability to pool knowledge from past tests. Here, we propose
a solution that applies hierarchical Bayesian estimation to address the above
limitations. In comparison to current sequential AB testing methodology, we
increase statistical power by exploiting correlations between factors, enabling
sequential testing and progressive early stopping, without incurring excessive
false positive risk. We also demonstrate how this methodology can be extended
to enable the extraction of composite global learnings from past AB tests, to
accelerate future tests. We underpin our work with a solid theoretical
framework that articulates the value of hierarchical estimation. We demonstrate
its utility using both numerical simulations and a large set of real-world AB
tests. Together, these results highlight the practical value of our approach
for statistical inference in the technology industry.
- Abstract(参考訳): abテストは事業者の意思決定を支援するもので、デジタルユーザエクスペリエンスを改善するためにデータから学ぶための標準的な方法だと考えられている。
しかしながら、実践者の要求と、ABテストの分析に一般的に使用される統計仮説検査手法によって課される制約との間には、通常はギャップがある。
これには、多くの要因を持つ多変量体設計における統計力の欠如、これらの要因間の相関、早期停止のためのシーケンシャルテストの必要性、過去のテストから知識をプールできないことが含まれる。
本稿では,上記の制限に対処するために階層ベイズ推定を適用した解を提案する。
現在の逐次abテスト手法と比較して,因子間の相関を活用し,過度な偽陽性リスクを伴わずに逐次テストと漸進的早期停止を可能にすることにより,統計力を高める。
また、この手法を拡張して過去のabテストから複合的なグローバルラーニングを抽出し、将来のテストを加速する方法を実証する。
我々は、階層的推定の価値を明確化する固い理論的枠組みで作業の土台となる。
数値シミュレーションと実世界のABテストの両方を用いて,その実用性を実証する。
これらの結果は,技術産業における統計的推測に対する我々のアプローチの実践的価値を強調するものである。
関連論文リスト
- Statistically Valid Information Bottleneck via Multiple Hypothesis Testing [35.59201763567714]
複数仮説テスト(IB-MHT)による情報ボトルネック(IB)問題に対する統計的に有効な解を提案する。
IB-MHTは、利用可能なデータセットのサイズに関係なく、学習した機能が高い確率でIB制約を満たすことを保証します。
IB-MHTは, 統計的堅牢性と信頼性の観点から, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T15:04:32Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Conditional independence testing under misspecified inductive biases [27.34558936393097]
本研究では, 回帰型CIテストの性能を不特定帰納バイアス下で検討した。
すなわち,3つの回帰テストの誤差に対する新しい近似や上限を提案する。
我々は,不特定帰納バイアスに対して頑健な回帰型CIテストであるRao-Blackwellized Predictor Test (RBPT)を導入する。
論文 参考訳(メタデータ) (2023-07-05T17:53:13Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy
Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial
Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。
提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。
提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T10:36:21Z) - Deep Learning in current Neuroimaging: a multivariate approach with
power and type I error control but arguable generalization ability [0.158310730488265]
ディープラーニングアーキテクチャを用いた分類の統計的意義を推定する非パラメトリックフレームワークを提案する。
ラベル置換試験は, クロスバリデーション (CV) と上界補正 (RUB) を併用した再置換を検証法として提案した。
我々は, CV法とRUB法が有意レベルに近い偽陽性率と許容可能な統計的力を提供することを置換試験で発見した。
論文 参考訳(メタデータ) (2021-03-30T21:15:39Z) - Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。
結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文 参考訳(メタデータ) (2020-07-24T17:40:06Z) - Marginal likelihood computation for model selection and hypothesis
testing: an extensive review [66.37504201165159]
この記事では、このトピックの最先端に関する総合的な研究について紹介する。
さまざまなテクニックの制限、メリット、コネクション、差異を強調します。
また、不適切な事前利用の問題や解決法についても述べる。
論文 参考訳(メタデータ) (2020-05-17T18:31:58Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。