論文の概要: A/B Testing: A Systematic Literature Review
- arxiv url: http://arxiv.org/abs/2308.04929v1
- Date: Wed, 9 Aug 2023 12:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:49:47.025645
- Title: A/B Testing: A Systematic Literature Review
- Title(参考訳): A/Bテスト: 体系的な文献レビュー
- Authors: Federico Quin and Danny Weyns and Matthias Galster and Camila Costa
Silva
- Abstract要約: 古典的なA/Bテストは、支配的なタイプのテストである。
テスト結果の圧倒的な利用は、機能選択、機能のロールアウト、継続的な機能開発である。
オープンな問題の主な報告は、提案されたアプローチの強化とそのユーザビリティである。
- 参考スコア(独自算出の注目度): 10.222047656342493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In A/B testing two variants of a piece of software are compared in the field
from an end user's point of view, enabling data-driven decision making. While
widely used in practice, no comprehensive study has been conducted on the
state-of-the-art in A/B testing. This paper reports the results of a systematic
literature review that analyzed 141 primary studies. The results shows that the
main targets of A/B testing are algorithms and visual elements. Single classic
A/B tests are the dominating type of tests. Stakeholders have three main roles
in the design of A/B tests: concept designer, experiment architect, and setup
technician. The primary types of data collected during the execution of A/B
tests are product/system data and user-centric data. The dominating use of the
test results are feature selection, feature rollout, and continued feature
development. Stakeholders have two main roles during A/B test execution:
experiment coordinator and experiment assessor. The main reported open problems
are enhancement of proposed approaches and their usability. Interesting lines
for future research include: strengthen the adoption of statistical methods in
A/B testing, improving the process of A/B testing, and enhancing the automation
of A/B testing.
- Abstract(参考訳): A/Bテストでは、エンドユーザーの視点で2種類のソフトウェアをフィールドで比較し、データ駆動による意思決定を可能にする。
実際に広く用いられているが、A/Bテストの最先端について包括的な研究は行われていない。
本報告では,141の初等研究を分析した系統的な文献レビューの結果を報告する。
その結果、A/Bテストの主なターゲットはアルゴリズムと視覚要素であることがわかった。
古典的なA/Bテストは支配的なテストである。
A/Bテストの設計には、コンセプトデザイナ、実験アーキテクト、セットアップ技術者の3つの主要な役割がある。
a/bテストの実行中に収集されるデータの主なタイプは、製品/システムデータとユーザ中心のデータである。
テスト結果の優位な利用は、機能選択、機能ロールアウト、継続的な機能開発である。
A/Bテスト実行において、ステークホルダーは2つの主要な役割を持っている。
オープンな問題の主な報告は、提案されたアプローチとユーザビリティの向上である。
A/Bテストにおける統計手法の採用の強化、A/Bテストのプロセスの改善、A/Bテストの自動化の強化。
関連論文リスト
- Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T21:54:36Z) - Automating Pipelines of A/B Tests with Population Split Using
Self-Adaptation and Machine Learning [10.635137352476246]
A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。
伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。
これらの問題に対処するために,A/Bテストのパイプライン実行を自動化するAutoPABSという,新たな自己適応型アプローチを導入する。
論文 参考訳(メタデータ) (2023-06-02T09:54:59Z) - Pre-trained Embeddings for Entity Resolution: An Experimental Analysis
[Experiment, Analysis & Benchmark] [65.11858854040544]
我々は、17の確立されたベンチマークデータセットに対して、12のポピュラー言語モデルの徹底的な実験分析を行う。
まず、全ての入力エンティティを高密度な埋め込みベクトルに変換するためのベクトル化のオーバーヘッドを評価する。
次に,そのブロッキング性能を調査し,詳細なスケーラビリティ解析を行い,最先端のディープラーニングベースのブロッキング手法と比較する。
第3に、教師なしマッチングと教師なしマッチングの両方に対して、相対的な性能で締めくくります。
論文 参考訳(メタデータ) (2023-04-24T08:53:54Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Introspective Distillation for Robust Question Answering [70.18644911309468]
質問応答(QA)モデルは、例えば、視覚的QAに先行する言語や、読解における位置バイアスなど、データのバイアスを利用するためによく知られている。
近年の脱バイアス法は, 分配内(ID)性能のかなりの犠牲を伴い, 分配外(OOD)の一般化性を良好に達成している。
IntroD(Introspective Distillation)と呼ばれる新しい脱湿法を提案し,両者のQAを最大限に活用する。
論文 参考訳(メタデータ) (2021-11-01T15:30:15Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。