論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2311.05794v4
- Date: Tue, 15 Oct 2024 15:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:57:27.028877
- Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- Title(参考訳): マルチアーマッド帯域における任意のValid因果推論のための実験設計
- Authors: Biyonka Liang, Iavor Bojinov,
- Abstract要約: 本稿では,Mixture Adaptive Design (MAD)を提案する。
MADは、万能MABアルゴリズムの平均処理効果(ATE)について、任意の時間価推論を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo. As companies increasingly mandate that all changes undergo experimentation before widespread release, two challenges arise: (1) minimizing the proportion of customers assigned to the inferior treatment and (2) increasing experimentation velocity by enabling data-dependent stopping. This paper addresses both challenges by introducing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime-valid inference on the Average Treatment Effect (ATE) for \emph{any} MAB algorithm. Intuitively, MAD "mixes" any bandit algorithm with a Bernoulli design, where at each time step, the probability of assigning a unit via the Bernoulli design is determined by a user-specified deterministic sequence that can converge to zero. This sequence lets managers directly control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime-valid and guaranteed to shrink around the true ATE. Hence, when the true ATE converges to a non-zero value, the MAD confidence sequence is guaranteed to exclude zero in finite time. Therefore, the MAD enables managers to stop experiments early while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.
- Abstract(参考訳): マネージャが変化の価値を厳格に定量化し、それが現状に対する統計的に重要な改善につながるかどうかを決定するためには、実験が不可欠である。
企業は、すべての変更が広く公開される前に実験を行うことをますます義務付けているため、(1)劣悪な待遇に割り当てられた顧客の比率を最小化すること、(2)データ依存的な停止を可能にして実験速度を向上すること、の2つの課題が生じる。
本稿は,Mixture Adaptive Design (MAD) というマルチアームバンディット(MAB) アルゴリズムの新たな実験設計を導入することで,平均処理効果(ATE) に対する平均値推定を可能にする。
直感的には、MADは任意のバンディットアルゴリズムをベルヌーイの設計と「混合」し、各段階において、ベルヌーイの設計を介してユニットを割り当てる確率は、ゼロに収束できるユーザ特定決定論的シーケンスによって決定される。
このシーケンスは、マネージャが後悔の最小化と推論の精度の間のトレードオフを直接制御することを可能にする。
シーケンスが 0 に収束する速度の穏やかな条件下では、漸近的にいつでも有意であり、真の ATE の周囲を縮めることが保証される信頼シーケンスを提供する。
したがって、真のATEが非ゼロ値に収束すると、MAD信頼シーケンスは有限時間でゼロを除外することが保証される。
したがって、MADはマネージャが妥当な推論を確保しつつ実験を早期に停止することを可能にし、適応実験の効率性と信頼性を向上する。
実験により,MADは,標準バンディット設計に比べて報酬に大きな損失を与えることなく,精度よく精度良くATEを推定しながら有限サンプル値を達成することを示した。
関連論文リスト
- VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Score Matching-based Pseudolikelihood Estimation of Neural Marked
Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。
具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。
提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文 参考訳(メタデータ) (2023-10-25T02:37:51Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash
Equilibrium [62.51015395213579]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
提案アルゴリズムは粒子の動きを利用して$ilon$-mixed Nash平衡のランダム戦略の更新を表現する。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z) - Neighborhood Spatial Aggregation MC Dropout for Efficient
Uncertainty-aware Semantic Segmentation in Point Clouds [8.98036662506975]
不確実性を考慮した点雲のセマンティックセマンティックセグメンテーションには、予測的不確実性推定と不確実性誘導モデル最適化が含まれる。
広く使われているMCドロップアウトは、複数の前方伝播を用いてサンプルの標準偏差を計算することによって分布を確立する。
MCドロップアウトの変種であるNSA-MCドロップアウトを組み込んだフレームワークが提案され、たった1つのフォワードパスで配布を確立する。
論文 参考訳(メタデータ) (2021-12-05T02:22:32Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。