論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2311.05794v3
- Date: Fri, 14 Jun 2024 20:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:31:28.955535
- Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- Title(参考訳): マルチアーマッド帯域における任意のValid因果推論のための実験設計
- Authors: Biyonka Liang, Iavor Bojinov,
- Abstract要約: 本稿では、平均処理効果(ATE)に対する任意の有効推論を可能にするマルチアーム・バンディット(MAB)アルゴリズムの新たな実験的設計を提案する。
また,MADは,標準バンディット設計と比較して,報酬のかなりの損失を伴わず,正確かつ正確にATEを推定しながら有限サンプル値を達成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo, thus augmenting their decision-making. Many companies now mandate that all changes undergo experimentation, presenting two challenges: (1) reducing the risk/cost of experimentation by minimizing the proportion of customers assigned to the inferior treatment and (2) increasing the experimentation velocity by enabling managers to stop experiments as soon as results are statistically significant. This paper simultaneously addresses both challenges by proposing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime valid inference on the Average Treatment Effect (ATE) for any MAB algorithm. Intuitively, the MAB "mixes" any bandit algorithm with a Bernoulli design such that at each time step, the probability that a customer is assigned via the Bernoulli design is controlled by a user-specified deterministic sequence that can converge to zero. The sequence enables managers to directly and interpretably control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime valid and demonstrate that the MAD is guaranteed to have a finite stopping time in the presence of a true non-zero ATE. Hence, the MAD allows managers to stop experiments early when a significant ATE is detected while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.
- Abstract(参考訳): マネージャにとって実験は、変化の価値を厳格に定量化し、それが現状に対する統計的に重要な改善につながるかどうかを判断し、意思決定を強化するために不可欠である。
現在では、下級治療に割り当てられた顧客の比率を最小にすることで、実験のリスク・コストを低減し、結果が統計的に有意となると、管理者が実験を早期に停止させることで、実験速度を高めるという2つの課題を提起する企業が多い。
本稿では,Mixture Adaptive Design(MAD)という,MABアルゴリズムに対する平均処理効果(ATE)を任意の時間で推定できるマルチアームバンディット(MAB)アルゴリズムの実験設計を提案する。
直感的には、MABは任意のバンディットアルゴリズムをベルヌーイの設計と「混合」し、各段階において、顧客がベルヌーイの設計を介して割り当てられる確率は、ゼロに収束できるユーザ特定決定論的シーケンスによって制御される。
このシーケンスにより、マネージャは、後悔の最小化と推論精度の間のトレードオフを直接的かつ解釈的に制御できる。
列が 0 に収束する速度に関する穏やかな条件下では、漸近的に有効である信頼シーケンスを提供し、真非零ATE の存在下では MAD が有限停止時間を持つことを保証している。
したがって、MADにより、マネージャは有効な推論を確保しつつ、重要なATEが検出された時点で実験を早期に停止することができ、適応実験の効率性と信頼性を向上することができる。
実験により,MADは,標準バンディット設計に比べて報酬に大きな損失を与えることなく,精度よく精度良くATEを推定しながら有限サンプル値を達成することを示した。
関連論文リスト
- VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
マルコフ決定過程(MDP)に対する最善かつ最悪の摂動下での政策評価について検討する。
これは、歴史的環境と将来の環境のシフトの可能性において重要な問題である。
本稿では、ある乗算係数またはその逆数への遷移カーネル密度を変更可能な摂動モデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。
本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。
我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文 参考訳(メタデータ) (2023-11-02T12:46:03Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Adapting to Continuous Covariate Shift via Online Density Ratio Estimation [64.8027122329609]
分散シフトへの対処は、現代の機械学習における中心的な課題の1つだ。
歴史的情報を適切に再利用するオンライン手法を提案する。
我々の密度比推定法は, ダイナミックなリセットバウンドを楽しむことにより, 良好に動作できることが証明された。
論文 参考訳(メタデータ) (2023-02-06T04:03:33Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.7632791497072553]
不愉快な条件下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
我々は、ベルンシュタイン=ヴォン・ミセスの定理の下で、新しい半パラメトリックロバスト性定理を確立することにより、ベイズ的手続きと効率的な頻繁なATE推定器の等価性を証明した。
シミュレーションでは、我々の二重頑健なベイズ法は、既存の頻繁な手法と比較して、大きなバイアス低減と信頼区間のより正確なカバレッジをもたらす。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z) - Conformal Inference of Counterfactuals and Individual Treatment Effects [6.810856082577402]
そこで本研究では,反ファクトや個々の治療効果について,信頼できる間隔を推定できる共形推論に基づく手法を提案する。
既存の手法は、単純なモデルであってもかなりのカバレッジの欠陥に悩まされる。
論文 参考訳(メタデータ) (2020-06-11T01:03:32Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。