論文の概要: Profit over Proxies: A Scalable Bayesian Decision Framework for Optimizing Multi-Variant Online Experiments
- arxiv url: http://arxiv.org/abs/2509.22677v1
- Date: Tue, 16 Sep 2025 02:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.783517
- Title: Profit over Proxies: A Scalable Bayesian Decision Framework for Optimizing Multi-Variant Online Experiments
- Title(参考訳): プロキシよりも利益:多変数オンライン実験を最適化するためのスケーラブルベイズ決定フレームワーク
- Authors: Srijesh Pillai, Rajesh Kumar Chandrawat,
- Abstract要約: オンライン制御実験(A/Bテスト)は、デジタル経済におけるデータ駆動型意思決定の基礎である。
p-value"は偽陽性率を膨らませ、変換レートのようなプロキシメトリクスへの過度な依存は、必然的にビジネスの黒字化を損なう決定につながる可能性がある。
本稿では,多変量(A/B/n)実験における利益最適化を目的とした包括的かつスケーラブルなベイズ決定フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0352925259310339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online controlled experiments (A/B tests) are fundamental to data-driven decision-making in the digital economy. However, their real-world application is frequently compromised by two critical shortcomings: the use of statistically flawed heuristics like "p-value peeking", which inflates false positive rates, and an over-reliance on proxy metrics like conversion rates, which can lead to decisions that inadvertently harm core business profitability. This paper addresses these challenges by introducing a comprehensive and scalable Bayesian decision framework designed for profit optimization in multi-variant (A/B/n) experiments. We propose a hierarchical Bayesian model that simultaneously estimates the probability of conversion (using a Beta-Bernoulli model) and the monetary value of that conversion (using a robust Bayesian model for the mean transaction value). Building on this, we employ a decision-theoretic stopping rule based on Expected Loss, enabling experiments to be concluded not only when a superior variant is identified but also when it becomes clear that no variant offers a practically significant improvement (stopping for futility). The framework successfully navigates "revenue traps" where a variant with a higher conversion rate would have resulted in a net financial loss, correctly terminates futile experiments early to conserve resources, and maintains strict statistical integrity throughout the monitoring process. Ultimately, this work provides a practical and principled methodology for organizations to move beyond simple A/B testing towards a mature, profit-driven experimentation culture, ensuring that statistical conclusions translate directly to strategic business value.
- Abstract(参考訳): オンライン制御実験(A/Bテスト)は、デジタル経済におけるデータ駆動型意思決定の基礎である。
しかし、彼らの現実世界の応用は、偽陽性率を膨らませる"p-value peeking"のような統計的に欠陥のあるヒューリスティックスの使用と、変換レートのようなプロキシメトリクスへの過度な信頼という、2つの重大な欠点によってしばしば妥協される。
本稿では,多変量(A/B/n)実験における利益最適化を目的とした包括的かつスケーラブルなベイズ決定フレームワークを導入することにより,これらの課題に対処する。
本稿では,変換確率(ベータ・ベルヌーリモデルを用いた)と,その変換の金銭的価値(平均取引値に対するロバストベイズモデルを用いた)を同時に推定する階層型ベイズモデルを提案する。
これに基づいて、予測損失に基づく決定論的停止則を用いて、優れた変種が特定された場合だけでなく、どの変種も事実上重要な改善(実用性のためのストラップ)を提供しないことが明確になった場合にも実験を結論付けることができる。
このフレームワークは、変換率の高い変種が実質的な損失をもたらし、リソースの保存を早めるために不活性な実験を正しく終了し、監視プロセス全体を通して厳密な統計的整合性を維持する「レヴュートラップ」をうまくナビゲートする。
最終的に、この研究は、組織が単純なA/Bテストを超えて、成熟した利益主導の実験文化に移行するための実践的で原則化された方法論を提供し、統計的結論が戦略的ビジネス価値に直接変換されることを保証する。
関連論文リスト
- Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability [14.00844847268286]
早期のDeep Neural Networksは、中間層での予測を可能にすることで、適応推論を可能にする。
我々のフレームワークは、フルモデルのパフォーマンスと比較して、パフォーマンス低下(2%)を最小限に抑えながら、スピードアップ(1.70-2.10x)が一貫した改善を示している。
論文 参考訳(メタデータ) (2025-09-28T06:05:24Z) - T-TAMER: Provably Taming Trade-offs in ML Serving [32.526955555483354]
我々は、この設定を多段階決定プロセスとして定式化する一般的なフレームワーク、T-Tamerを提案する。
我々の主な結果は、リコールは、証明可能なパフォーマンス保証を達成するのに必要であり、十分であることを示している。
その結果、リコールベースの戦略は効率のよいレイテンシトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2025-09-26T23:08:03Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding [52.1068936424622]
治療が介入によって設定された場合、対象変数$Y$に対して、予測因果効果$E[Y|do(X)]$を推定する問題を考える。
選択バイアスや欠点のない設定では、$E[Y|do(X)] = E[Y|X]$ となる。
選択バイアスとコンバウンディングの両方を組み込んだフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T13:43:37Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Ranking by Lifts: A Cost-Benefit Approach to Large-Scale A/B Tests [0.0]
A/Bテストは、特にデジタルプラットフォームや市場において、ビジネス実験における意思決定のための中核的なツールである。
本稿では、コスト重み付き偽発見率(FDR)の制約を受けることにより、期待される利益を最大化する決定論的枠組みを開発する。
提案手法は, 提案手法を用いて, 予測昇降率とコストとの比に基づいて実験をランク付けし, 局所的偽発見率(lfdr)を重要な統計量として組み込んだ実験ベイズ手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:40:08Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Detecting Toxic Flow [0.40964539027092917]
本稿では,ブローカーが顧客から受ける有害取引を予測する枠組みを開発する。
我々は、我々の方法論をテストするために、外国為替取引のプロプライエタリなデータセットを使用します。
顧客から受け取った取引の内面化や外部化のために毒性予測を利用するブローカーのための戦略を考案する。
論文 参考訳(メタデータ) (2023-12-10T09:00:09Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - Financial Data Analysis Using Expert Bayesian Framework For Bankruptcy
Prediction [0.0]
本稿では,エキスパートベイズフレームワークを用いた生成モデリングの新たな手法を提案する。
提案フレームワークの最大の利点は、モデリングプロセスに専門家の判断を明示的に取り入れることである。
提案手法は、金融や医療診断など、高度に規制された、あるいは安全性の高い応用に適している。
論文 参考訳(メタデータ) (2020-10-19T19:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。