論文の概要: Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic
Experimentation
- arxiv url: http://arxiv.org/abs/2305.14704v4
- Date: Sun, 17 Sep 2023 21:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:49:54.759510
- Title: Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic
Experimentation
- Title(参考訳): オンライン適応交通実験のための実践的バッチベイズサンプリングアルゴリズム
- Authors: Zezhong Zhang and Ted Yuan
- Abstract要約: 本稿では,eBayの実験プラットフォームのためのベイズバッチブロードバンドアルゴリズムを4つ提案する。
新たなWB-TTTSは、固定水平A/Bテストに対する効率的で信頼性が高く、堅牢な代替手段であることを示している。
本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等のベストアームから腕を識別できるため,信頼できないことを示す。
- 参考スコア(独自算出の注目度): 4.389289483635932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online controlled experiments have emerged as industry gold standard for
assessing new web features. As new web algorithms proliferate, experimentation
platform faces an increasing demand on the velocity of online experiments,
which encourages adaptive traffic testing methods to speed up identifying best
variant by efficiently allocating traffic. This paper proposed four Bayesian
batch bandit algorithms (NB-TS, WB-TS, NB-TTTS, WB-TTTS) for eBay's
experimentation platform, using summary batch statistics of a goal metric
without incurring new engineering technical debts. The novel WB-TTTS, in
particular, demonstrates as an efficient, trustworthy and robust alternative to
fixed horizon A/B testing. Another novel contribution is to bring
trustworthiness of best arm identification algorithms into evaluation criterion
and highlight the existence of severe false positive inflation with equivalent
best arms. To gain the trust of experimenters, experimentation platform must
consider both efficiency and trustworthiness; However, to the best of authors'
knowledge, trustworthiness as an important topic is rarely discussed. This
paper shows that Bayesian bandits without neutral posterior reshaping,
particularly naive Thompson sampling (NB-TS), are untrustworthy because they
can always identify an arm as the best from equivalent best arms. To restore
trustworthiness, a novel finding uncovers connections between convergence
distribution of posterior optimal probabilities of equivalent best arms and
neutral posterior reshaping, which controls false positives. Lastly, this paper
presents lessons learned from eBay's experience, as well as thorough
evaluations. We hope this work is useful to other industrial practitioners and
inspires academic researchers interested in the trustworthiness of adaptive
traffic experimentation.
- Abstract(参考訳): オンライン制御実験は、新しいウェブ機能を評価するための業界標準として登場した。
新しいウェブアルゴリズムが普及するにつれて、実験プラットフォームはオンライン実験の速度に対する需要が増大し、適応的な交通試験手法がトラフィックを効率よく割り当てることによって最適な変種を特定するスピードアップを促す。
本稿では,ebayの実験プラットフォームにおける4つのベイズ的バッチバンディットアルゴリズム (nb-ts, wb-ts, nb-tts, wb-tts) を提案し,新たな工学的技術的負債を伴わない目標メトリックのバッチ統計を用いた。
特に、新しいwb-ttsは固定地平線a/bテストの効率的で信頼性が高く、堅牢な代替品である。
もう一つの新しい貢献は、ベストアーム識別アルゴリズムの信頼性を評価基準に持ち込み、同等のベストアームによる深刻な偽陽性インフレの存在を強調することである。
実験者の信頼を得るためには、実験プラットフォームは効率性と信頼性の両方を考慮しなければならないが、著者の知る限りでは、重要な話題としての信頼性が議論されることはほとんどない。
本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等のベストアームから腕を識別できるため,信頼できないことを示す。
信頼性を回復する新発見は、同等のベストアームの後方最適確率の収束分布と、偽陽性を制御する中性後方転位との間の関係を明らかにする。
最後に、eBayの経験から学んだ教訓と、徹底的な評価を紹介する。
この研究が他の産業実践者に役立つことを願っており、適応型交通実験の信頼性に関心を持つ研究者に刺激を与えている。
関連論文リスト
- Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy
Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial
Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。
提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。
提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T10:36:21Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。
提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。
このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文 参考訳(メタデータ) (2021-02-25T22:29:25Z) - TSEC: a framework for online experimentation under experimental
constraints [1.1470070927586016]
トンプソンサンプリングは、複数の武装したバンディット問題を解決する一般的なアルゴリズムである。
今回提案するThompson Sampling under Experimental Constraints (TSEC)法は、このいわゆる「武器予算制約」に対処するものである。
我々は,arm予算制約を伴う2つの問題に対するtsecの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T05:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。