論文の概要: Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring
- arxiv url: http://arxiv.org/abs/2304.00420v1
- Date: Sun, 2 Apr 2023 00:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:17:50.585149
- Title: Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring
- Title(参考訳): 強化学習を伴う実験プラットフォーム:継続的モニタリングのためのベイジアンシークエンシャル意思決定
- Authors: Runzhe Wan, Yu Liu, James McQueen, Doug Hains, Rui Song
- Abstract要約: 本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
- 参考スコア(独自算出の注目度): 13.62951379287041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing needs of online A/B testing to support the innovation in
industry, the opportunity cost of running an experiment becomes non-negligible.
Therefore, there is an increasing demand for an efficient continuous monitoring
service that allows early stopping when appropriate. Classic statistical
methods focus on hypothesis testing and are mostly developed for traditional
high-stake problems such as clinical trials, while experiments at online
service companies typically have very different features and focuses. Motivated
by the real needs, in this paper, we introduce a novel framework that we
developed in Amazon to maximize customer experience and control opportunity
cost. We formulate the problem as a Bayesian optimal sequential decision making
problem that has a unified utility function. We discuss extensively practical
design choices and considerations. We further introduce how to solve the
optimal decision rule via Reinforcement Learning and scale the solution. We
show the effectiveness of this novel approach compared with existing methods
via a large-scale meta-analysis on experiments in Amazon.
- Abstract(参考訳): 産業のイノベーションを支援するオンラインa/bテストの必要性が高まる中、実験を行う機会コストは無視できないものになっている。
そのため、適切なタイミングで早期に停止できる効率的な継続的監視サービスへの需要が高まっている。
古典的な統計手法は仮説テストに重点を置いており、主に臨床試験のような従来のハイテイクな問題のために開発されている。
本論文では、顧客エクスペリエンスを最大化し、機会コストを制御するために、Amazonで開発した新しいフレームワークを紹介します。
本稿では,統一効用関数を持つベイズ最適逐次意思決定問題として問題を定式化する。
我々は,実用的設計の選択肢と考察を幅広く議論する。
さらに,強化学習による最適決定ルールの解法と,その解のスケールについて紹介する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Towards the D-Optimal Online Experiment Design for Recommender Selection [18.204325860752768]
ユーザとレコメンデーションの両方が、報酬に有益なコンテキスト機能を持っているため、最適なオンライン実験を見つけることは簡単ではない。
本研究では,古典統計学のemphD-Optimal設計を活用し,探索時の最大情報ゲインを実現する。
次に、Walmart.comでのデプロイメントの例を使って、提案手法の実践的洞察と効果を十分に説明します。
論文 参考訳(メタデータ) (2021-10-23T04:30:27Z) - Diffusion Approximations for a Class of Sequential Testing Problems [0.0]
私達は市場へ進水するプロダクトの最適の品揃えを選びたいと思う販売人の問題を研究します。
電子商取引における新興の慣行に触発されて、売り手はこれらの嗜好を学習するためにクラウド投票システムを利用することができると仮定する。
論文 参考訳(メタデータ) (2021-02-13T23:21:29Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。