Fugu-MT 論文翻訳(概要): Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation

論文の概要: Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation

arxiv url: http://arxiv.org/abs/2305.14704v3
Date: Sun, 27 Aug 2023 19:22:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 23:35:19.931679
Title: Practical Batch Bayesian Sampling Algorithms for Online Adaptive Traffic Experimentation
Title（参考訳）: オンライン適応交通実験のための実践的バッチベイズサンプリングアルゴリズム
Authors: Zezhong Zhang and Ted Yuan
Abstract要約: 本稿では,eBayの実験プラットフォームのためのベイズバッチ帯域幅アルゴリズムを4つ提案した。新たなWB-TTTSは、固定水平A/Bテストに対する効率的で信頼性が高く、堅牢な代替手段であることを示している。本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソン・サンプリング(NB-TS)が常に同等の腕から腕を識別できるため,信頼できないことを示す。
参考スコア（独自算出の注目度）: 4.389289483635932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online controlled experiments have emerged as industry gold standard for assessing new web features. As new web algorithms proliferate, experimentation platform faces an increasing demand on the velocity of online experiments, which encourages adaptive traffic testing methods to speed up identifying best variant by efficiently allocating traffic. This paper proposed four Bayesian batch bandit algorithms (NB-TS, WB-TS, NB-TTTS, WB-TTTS) for eBay's experimentation platform, using summary batch statistics of a goal metric without incurring new engineering technical debts. The novel WB-TTTS, in particular, demonstrates as an efficient, trustworthy and robust alternative to fixed horizon A/B testing. Another novel contribution is to bring trustworthiness of best arm identification algorithms into evaluation criterion and highlight the existence of severe false positive inflation with equivalent best arms. To gain the trust of experimenters, the experimentation platform must consider both efficiency and trustworthiness; However, to the best of authors' knowledge, trustworthiness as an important topic is rarely discussed in literatures of either best arm identification or multi-armed bandit. This paper shows that Bayesian bandits without neutral posterior reshaping, particularly naive Thompson sampling (NB-TS), are untrustworthy because they can always identify an arm as best from equivalent best arms. To restore trustworthiness, a novel finding uncovers connections between convergence distribution of posterior optimal probabilities of equivalent best arms and neutral posterior reshaping, which controls false positives. Lastly, this paper presents lessons learned from eBay's experience, as well as evaluations of the four algorithms. We hope our work is useful to other industrial practitioners and inspire academic researchers interested in the trustworthiness of adaptive traffic experimentation.
Abstract（参考訳）: オンライン制御実験は、新しいウェブ機能を評価するための業界標準として登場した。新しいウェブアルゴリズムが普及するにつれて、実験プラットフォームはオンライン実験の速度に対する需要が増大し、適応的な交通試験手法がトラフィックを効率よく割り当てることによって最適な変種を特定するスピードアップを促す。本稿では,ebayの実験プラットフォームにおける4つのベイズ的バッチバンディットアルゴリズム (nb-ts, wb-ts, nb-tts, wb-tts) を提案し,新たな工学的技術的負債を伴わない目標メトリックのバッチ統計を用いた。特に、新しいwb-ttsは固定地平線a/bテストの効率的で信頼性が高く、堅牢な代替品である。もう一つの新しい貢献は、ベストアーム識別アルゴリズムの信頼性を評価基準に持ち込み、同等のベストアームによる深刻な偽陽性インフレの存在を強調することである。実験者の信頼を得るためには、実験プラットフォームは効率性と信頼性の両方を考慮する必要があるが、著者の知る限り、信頼性を重要なトピックとして扱うことは、最高の腕の識別または多腕の盗賊の文献ではほとんど議論されない。本稿では,中性後部変形のないベイズバンド,特にナイーブ・トンプソンサンプリング(NB-TS)が常に同等の腕から腕を識別できるため,信頼できないことを示す。信頼性を回復する新発見は、同等のベストアームの後方最適確率の収束分布と、偽陽性を制御する中性後方転位との間の関係を明らかにする。最後に、ebayの経験から学んだ教訓と4つのアルゴリズムの評価について述べる。我々の研究は、他の産業実践者にとって有益であり、適応型交通実験の信頼性に関心を持つ学術研究者に刺激されることを願っている。

関連論文リスト

Harnessing the Power of Interleaving and Counterfactual Evaluation for Airbnb Search Ranking [14.97060265751423]
評価は,検索・推薦システムにおけるランキングアルゴリズムの開発において重要な役割を担っている。オンライン環境は因果推論技術の適用に寄与する。効果的なA/Bテストでは、ビジネスはユニークな課題に直面します。
論文参考訳（メタデータ） (2025-08-01T16:28:18Z)
Test-Time Adaptation with Binary Feedback [50.20923012663613]
BiTTAは、不確実なサンプルに対するバイナリフィードバック誘導適応と、確実な予測に対する合意に基づく自己適応のバランスをとる、新しいデュアルパス最適化フレームワークである。実験の結果、BiTTAは最先端のベースラインよりも13.3%の精度向上を実現している。
論文参考訳（メタデータ） (2025-05-24T05:24:10Z)
Rate-Informed Discovery via Bayesian Adaptive Multifidelity Sampling [36.106248147331804]
本稿では, 有害事象の頻度を同時に推定しながら, 効率的な発見を実現するための適応多相サンプリング(BAMS)を提案する。 BAMSはモンテカルロ (MC) や重要サンプリング (IS) のベースラインの10倍の問題を発見できると同時に, それぞれMCとISのベースラインの15倍, 6倍のばらつきで推定値を生成することを示した。
論文参考訳（メタデータ） (2024-11-26T19:05:46Z)
Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。 SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。 SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文参考訳（メタデータ） (2024-03-05T11:44:14Z)
Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。 30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文参考訳（メタデータ） (2023-11-02T15:35:58Z)
Optimization-Free Test-Time Adaptation for Cross-Person Activity Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-28T02:20:33Z)
Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文参考訳（メタデータ） (2023-10-09T11:44:50Z)
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。 DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文参考訳（メタデータ） (2023-08-11T09:36:31Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-05T10:36:21Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Doubly-Adaptive Thompson Sampling for Multi-Armed and Contextual Bandits [28.504921333436833]
本稿では,トンプソンサンプリングに基づくアルゴリズムの変種について,両腕の真の平均報酬に対する2倍頑健な推定器の項を適応的に再検討する。提案アルゴリズムは, 半合成実験における最適(最小)後悔率とその経験的評価に適合する。このアプローチは、適応データ収集とは別に、より多くのバイアス源が存在するコンテキスト的包帯に拡張する。
論文参考訳（メタデータ） (2021-02-25T22:29:25Z)
TSEC: a framework for online experimentation under experimental constraints [1.1470070927586016]
トンプソンサンプリングは、複数の武装したバンディット問題を解決する一般的なアルゴリズムである。今回提案するThompson Sampling under Experimental Constraints (TSEC)法は、このいわゆる「武器予算制約」に対処するものである。我々は,arm予算制約を伴う2つの問題に対するtsecの有効性を実証する。
論文参考訳（メタデータ） (2021-01-17T05:04:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。