論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2311.05794v3
- Date: Fri, 14 Jun 2024 20:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:31:28.955535
- Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- Title(参考訳): マルチアーマッド帯域における任意のValid因果推論のための実験設計
- Authors: Biyonka Liang, Iavor Bojinov,
- Abstract要約: 本稿では、平均処理効果(ATE)に対する任意の有効推論を可能にするマルチアーム・バンディット(MAB)アルゴリズムの新たな実験的設計を提案する。
また,MADは,標準バンディット設計と比較して,報酬のかなりの損失を伴わず,正確かつ正確にATEを推定しながら有限サンプル値を達成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo, thus augmenting their decision-making. Many companies now mandate that all changes undergo experimentation, presenting two challenges: (1) reducing the risk/cost of experimentation by minimizing the proportion of customers assigned to the inferior treatment and (2) increasing the experimentation velocity by enabling managers to stop experiments as soon as results are statistically significant. This paper simultaneously addresses both challenges by proposing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime valid inference on the Average Treatment Effect (ATE) for any MAB algorithm. Intuitively, the MAB "mixes" any bandit algorithm with a Bernoulli design such that at each time step, the probability that a customer is assigned via the Bernoulli design is controlled by a user-specified deterministic sequence that can converge to zero. The sequence enables managers to directly and interpretably control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime valid and demonstrate that the MAD is guaranteed to have a finite stopping time in the presence of a true non-zero ATE. Hence, the MAD allows managers to stop experiments early when a significant ATE is detected while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.
- Abstract(参考訳): マネージャにとって実験は、変化の価値を厳格に定量化し、それが現状に対する統計的に重要な改善につながるかどうかを判断し、意思決定を強化するために不可欠である。
現在では、下級治療に割り当てられた顧客の比率を最小にすることで、実験のリスク・コストを低減し、結果が統計的に有意となると、管理者が実験を早期に停止させることで、実験速度を高めるという2つの課題を提起する企業が多い。
本稿では,Mixture Adaptive Design(MAD)という,MABアルゴリズムに対する平均処理効果(ATE)を任意の時間で推定できるマルチアームバンディット(MAB)アルゴリズムの実験設計を提案する。
直感的には、MABは任意のバンディットアルゴリズムをベルヌーイの設計と「混合」し、各段階において、顧客がベルヌーイの設計を介して割り当てられる確率は、ゼロに収束できるユーザ特定決定論的シーケンスによって制御される。
このシーケンスにより、マネージャは、後悔の最小化と推論精度の間のトレードオフを直接的かつ解釈的に制御できる。
列が 0 に収束する速度に関する穏やかな条件下では、漸近的に有効である信頼シーケンスを提供し、真非零ATE の存在下では MAD が有限停止時間を持つことを保証している。
したがって、MADにより、マネージャは有効な推論を確保しつつ、重要なATEが検出された時点で実験を早期に停止することができ、適応実験の効率性と信頼性を向上することができる。
実験により,MADは,標準バンディット設計に比べて報酬に大きな損失を与えることなく,精度よく精度良くATEを推定しながら有限サンプル値を達成することを示した。
関連論文リスト
- VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Score Matching-based Pseudolikelihood Estimation of Neural Marked
Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。
具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。
提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文 参考訳(メタデータ) (2023-10-25T02:37:51Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z) - Neighborhood Spatial Aggregation MC Dropout for Efficient
Uncertainty-aware Semantic Segmentation in Point Clouds [8.98036662506975]
不確実性を考慮した点雲のセマンティックセマンティックセグメンテーションには、予測的不確実性推定と不確実性誘導モデル最適化が含まれる。
広く使われているMCドロップアウトは、複数の前方伝播を用いてサンプルの標準偏差を計算することによって分布を確立する。
MCドロップアウトの変種であるNSA-MCドロップアウトを組み込んだフレームワークが提案され、たった1つのフォワードパスで配布を確立する。
論文 参考訳(メタデータ) (2021-12-05T02:22:32Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。