論文の概要: A Two-armed Bandit Framework for A/B Testing
- arxiv url: http://arxiv.org/abs/2507.18118v1
- Date: Thu, 24 Jul 2025 06:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.031908
- Title: A Two-armed Bandit Framework for A/B Testing
- Title(参考訳): A/Bテストのための二本腕バンドフレームワーク
- Authors: Jinjuan Wang, Qianglin Wen, Yu Zhang, Xiaodong Yan, Chengchun Shi,
- Abstract要約: A/Bテストは、政策評価と製品展開のために現代技術企業で広く使われている。
本稿では,既存手法のパワー向上を目的とした二本腕バンディットフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.613624239291614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A/B testing is widely used in modern technology companies for policy evaluation and product deployment, with the goal of comparing the outcomes under a newly-developed policy against a standard control. Various causal inference and reinforcement learning methods developed in the literature are applicable to A/B testing. This paper introduces a two-armed bandit framework designed to improve the power of existing approaches. The proposed procedure consists of three main steps: (i) employing doubly robust estimation to generate pseudo-outcomes, (ii) utilizing a two-armed bandit framework to construct the test statistic, and (iii) applying a permutation-based method to compute the $p$-value. We demonstrate the efficacy of the proposed method through asymptotic theories, numerical experiments and real-world data from a ridesharing company, showing its superior performance in comparison to existing methods.
- Abstract(参考訳): A/Bテストは、政策評価と製品展開のために現代技術企業で広く使われており、新しい政策の下での成果と標準制御との対比を目的としている。
文献で開発された各種因果推論および強化学習法はA/B試験に適用できる。
本稿では,既存手法のパワー向上を目的とした二本腕バンディットフレームワークを提案する。
提案手法は,3つの主要なステップから構成される。
(i)擬似アウトカムを生成するために二重頑健な見積もりを用いる。
二 試験統計の作成に二本腕の盗賊の枠組みを利用すること。
(iii)$p$-valueを計算するために置換法を適用する。
本研究では, 配車会社による漸近理論, 数値実験, 実世界データによる提案手法の有効性を実証し, 既存手法と比較して優れた性能を示した。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Peeking with PEAK: Sequential, Nonparametric Composite Hypothesis Tests for Means of Multiple Data Streams [38.04922933299814]
テストバイベッティングフレームワークの上に構築し、停止時間にまたがる非漸近的な$alpha$レベルのテストを提供します。
実験の結果,PEAKは停止前のサンプル数を最大85%削減できることがわかった。
論文 参考訳(メタデータ) (2024-02-09T01:11:34Z) - Towards Evaluating Transfer-based Attacks Systematically, Practically,
and Fairly [79.07074710460012]
ディープニューラルネットワーク(DNN)の敵対的脆弱性に大きな注目を集めている。
ブラックボックスDNNモデルを騙すための転送ベース手法が増えている。
30以上のメソッドを実装した転送ベースアタックベンチマーク(TA-Bench)を確立する。
論文 参考訳(メタデータ) (2023-11-02T15:35:58Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Integrative conformal p-values for powerful out-of-distribution testing
with labeled outliers [1.6371837018687636]
本稿では,参照集合と同じ分布から新しい観測結果がサンプリングされたかどうかを検証するための新しいコンフォメーション手法を開発した。
提案手法は, 既知分布データからの依存側情報に基づいて, 標準のp値を再重み付けすることができる。
このソリューションは、サンプル分割または新しいトランスダクティブクロスバリデーション+スキームによって実装することができる。
論文 参考訳(メタデータ) (2022-08-23T17:52:20Z) - FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。
評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2021-09-27T00:57:30Z) - A generalized framework for active learning reliability: survey and
benchmark [0.0]
本研究では,効果的な能動学習戦略を構築するためのモジュラーフレームワークを提案する。
信頼性ベンチマーク問題20の解決策として39の戦略を考案した。
論文 参考訳(メタデータ) (2021-06-03T09:33:59Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。