論文の概要: Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results
- arxiv url: http://arxiv.org/abs/2306.06273v1
- Date: Fri, 9 Jun 2023 21:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:03:34.088817
- Title: Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results
- Title(参考訳): オンライン教育プラットフォームにおけるA/Bテストの精度向上のための補助データの利用:新しいデータと新しい結果
- Authors: Adam C. Sales, Ethan B. Prihar, Johann A. Gagnon-Bartsch, Neil T.
Heffernan
- Abstract要約: A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Randomized A/B tests within online learning platforms represent an exciting
direction in learning sciences. With minimal assumptions, they allow causal
effect estimation without confounding bias and exact statistical inference even
in small samples. However, often experimental samples and/or treatment effects
are small, A/B tests are underpowered, and effect estimates are overly
imprecise. Recent methodological advances have shown that power and statistical
precision can be substantially boosted by coupling design-based causal
estimation to machine-learning models of rich log data from historical users
who were not in the experiment. Estimates using these techniques remain
unbiased and inference remains exact without any additional assumptions. This
paper reviews those methods and applies them to a new dataset including over
250 randomized A/B comparisons conducted within ASSISTments, an online learning
platform. We compare results across experiments using four novel deep-learning
models of auxiliary data and show that incorporating auxiliary data into causal
estimates is roughly equivalent to increasing the sample size by 20\% on
average, or as much as 50-80\% in some cases, relative to t-tests, and by about
10\% on average, or as much as 30-50\%, compared to cutting-edge machine
learning unbiased estimates that use only data from the experiments. We show
that the gains can be even larger for estimating subgroup effects, hold even
when the remnant is unrepresentative of the A/B test sample, and extend to
post-stratification population effects estimators.
- Abstract(参考訳): オンライン学習プラットフォームにおけるランダムa/bテストは、学習科学におけるエキサイティングな方向性を表している。
最小の仮定では、小さなサンプルであってもバイアスや正確な統計的推論を伴わずに因果効果を推定できる。
しかし、しばしば実験試料や治療効果は小さく、A/B試験は低出力であり、効果推定は過度に不正確である。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示した。
これらの手法を用いた推定は偏りがなく、推論は追加の仮定なしに正確である。
オンライン学習プラットフォームである assistments で実施した250以上のランダム化 a/b 比較を含む,新しいデータセットに適用する。
補助データの4つの新しいディープラーニングモデルを用いて実験結果を比較し、補助データを因果推定に組み込むことは、tテストと比較して、サンプルサイズを平均で20-%増加させたり、50-80-%増加させたり、平均で約10-%、30-50-%増加させたりすることと同値であることを示した。
その結果,a/bテスト試料の残差が示されない場合においても,サブグループ効果の推定にはさらに大きな効果が得られ,成層後集団効果推定にも拡張できることがわかった。
関連論文リスト
- Uncertainty Measurement of Deep Learning System based on the Convex Hull of Training Sets [0.13265175299265505]
本研究では,訓練データの凸殻に基づくトレーニングモデルの不確実性を測定するTo-hull Uncertainity and Closure Ratioを提案する。
学習したデータの凸船体と見えないサンプルとの間の位置関係を観察し、サンプルが凸船体からどのように外挿されているかを推測することができる。
論文 参考訳(メタデータ) (2024-05-25T06:25:24Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。