論文の概要: Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework
- arxiv url: http://arxiv.org/abs/2002.01711v6
- Date: Thu, 3 Nov 2022 15:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:02:21.785288
- Title: Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework
- Title(参考訳): 強化学習フレームワークを用いたA/Bテストにおける動的因果効果評価
- Authors: Chengchun Shi, Xiaoyu Wang, Shikai Luo, Hongtu Zhu, Jieping Ye, Rui
Song
- Abstract要約: A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 68.96770035057716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A/B testing, or online experiment is a standard business strategy to compare
a new product with an old one in pharmaceutical, technological, and traditional
industries. Major challenges arise in online experiments of two-sided
marketplace platforms (e.g., Uber) where there is only one unit that receives a
sequence of treatments over time. In those experiments, the treatment at a
given time impacts current outcome as well as future outcomes. The aim of this
paper is to introduce a reinforcement learning framework for carrying A/B
testing in these experiments, while characterizing the long-term treatment
effects. Our proposed testing procedure allows for sequential monitoring and
online updating. It is generally applicable to a variety of treatment designs
in different industries. In addition, we systematically investigate the
theoretical properties (e.g., size and power) of our testing procedure.
Finally, we apply our framework to both simulated data and a real-world data
example obtained from a technological company to illustrate its advantage over
the current practice. A Python implementation of our test is available at
https://github.com/callmespring/CausalRL.
- Abstract(参考訳): A/Bテストまたはオンライン実験は、新しい製品を製薬、技術、伝統産業の古い製品と比較するための標準的なビジネス戦略である。
主要な課題は、時間とともに一連の治療を受けるユニットが1つしか存在しない、双方向のマーケットプレイスプラットフォーム(例えばuber)のオンライン実験で発生する。
これらの実験では、ある時点における治療が現在の結果と将来の結果に影響を及ぼす。
本研究の目的は,a/bテストを実施するための強化学習フレームワークを,長期的治療効果を特徴付けながら導入することである。
提案手法により,シーケンシャルモニタリングとオンライン更新が可能となった。
一般的に異なる産業における様々な治療設計に適用できる。
さらに,テスト手順の理論的特性(例えば,サイズとパワー)を系統的に検討した。
最後に、我々のフレームワークを、シミュレーションデータと、技術企業から得られた実世界のデータ例の両方に適用し、現在の実践に対する優位性を実証する。
テストのPython実装はhttps://github.com/callmespring/CausalRL.comで公開されている。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - A Common Misassumption in Online Experiments with Machine Learning
Models [1.52292571922932]
変種は一般的にプールデータを使って学習するため、モデル干渉の欠如は保証できない、と我々は主張する。
実践者や研究文献に対する影響について論じる。
論文 参考訳(メタデータ) (2023-04-21T11:36:44Z) - SPOT: Sequential Predictive Modeling of Clinical Trial Outcome with
Meta-Learning [67.8195828626489]
臨床試験は薬物開発に不可欠であるが、時間を要する、費用がかかる、失敗する傾向がある。
本稿では,まず,複数ソースの臨床試験データを関連するトライアルトピックにクラスタリングするために,臨床トライアル結果の逐次予測mOdeling(SPOT)を提案する。
タスクとして各トライアルシーケンスを考慮して、メタ学習戦略を使用して、モデルが最小限のアップデートで新しいタスクに迅速に適応できるポイントを達成する。
論文 参考訳(メタデータ) (2023-04-07T23:04:27Z) - Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - Fair Effect Attribution in Parallel Online Experiments [57.13281584606437]
A/Bテストは、オンラインサービスで導入された変更の影響を確実に特定する目的で役立ちます。
オンラインプラットフォームでは,ユーザトラフィックをランダムに分割して多数の同時実験を行うのが一般的である。
異なるグループ間の完全なランダム化にもかかわらず、同時実験は互いに相互作用し、平均的な集団の結果に負の影響をもたらす。
論文 参考訳(メタデータ) (2022-10-15T17:15:51Z) - A Reinforcement Learning Approach to Estimating Long-term Treatment
Effects [13.371851720834918]
ランダム化実験による制限は、長期効果を測定するために容易に拡張できないことである。
マルコフ過程における平均報酬を推定する強化学習(RL)アプローチを採用する。
観測された状態遷移が非定常である実世界のシナリオに動機付けられ、非定常問題のクラスのための新しいアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-10-14T05:33:19Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - Towards Continuous Compounding Effects and Agile Practices in
Educational Experimentation [2.7094829962573304]
本稿では,異なる実験過程を分類する枠組みを定義する。
次世代の教育技術の成功は、プロセスの完全な集合を取り入れることによって後押しされる。
論文 参考訳(メタデータ) (2021-11-17T13:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。