論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2311.05794v2
- Date: Thu, 16 May 2024 22:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:33:24.039962
- Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
- Title(参考訳): マルチアーマッド帯域における任意のValid因果推論のための実験設計
- Authors: Biyonka Liang, Iavor Bojinov,
- Abstract要約: マルチアームバンディット実験のためのMixture Adaptive Design (MAD) を開発した。
MADはベルヌーイの設計で実験者の選択した帯域幅アルゴリズムを「混合」する。
我々は,MADが常に有限サンプルの有効性と高いパワーを達成できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-armed bandit (MAB) experiments, it is often advantageous to continuously produce inference on the average treatment effect (ATE) between arms as new data arrive and determine a data-driven stopping time for the experiment. We develop the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit experiments that produces powerful and anytime-valid inference on the ATE for \emph{any} bandit algorithm of the experimenter's choice, even those without probabilistic treatment assignment. Intuitively, the MAD "mixes" any bandit algorithm of the experimenter's choice with a Bernoulli design through a tuning parameter $\delta_t$, where $\delta_t$ is a deterministic sequence that decreases the priority placed on the Bernoulli design as the sample size grows. We prove that for $\delta_t = \omega\left(t^{-1/4}\right)$, the MAD generates anytime-valid asymptotic confidence sequences that are guaranteed to shrink around the true ATE. Hence, the experimenter is guaranteed to detect a true non-zero treatment effect in finite time. Additionally, we prove that the regret of the MAD approaches that of its underlying bandit algorithm over time, and hence, incurs a relatively small loss in regret in return for powerful inferential guarantees. Finally, we conduct an extensive simulation study exhibiting that the MAD achieves finite-sample anytime validity and high power without significant losses in finite-sample reward.
- Abstract(参考訳): マルチアーム・バンディット(MAB)実験では、新しいデータが到着すると腕間の平均治療効果(ATE)を連続的に予測し、実験のためのデータ駆動停止時間を決定するのが有利であることが多い。
我々は,実験者の選択した「emph{any} Bandit」アルゴリズムに対して,確率的処理代入を伴わないものであっても,強力かつ有意な仮説を導出するマルチアームバンディット実験のための新しい実験設計であるMixture Adaptive Design (MAD)を開発した。
直感的には、MADは実験者の選択した帯域幅のアルゴリズムを、チューニングパラメータ$\delta_t$を通じてBernolli設計で混合する。
我々は、$\delta_t = \omega\left(t^{-1/4}\right)$ に対して、MAD は真の ATE の周囲を縮めることが保証される任意の有意な漸近的信頼シーケンスを生成することを証明している。
したがって、実験者は、真の非ゼロ処理効果を有限時間で検出することが保証される。
さらに、MADの後悔は、その基盤となる帯域幅アルゴリズムの後悔に時間をかけて近づき、それ故に、強力な推論保証の見返りとして、比較的小さな後悔を招きかねないことが証明される。
最後に,MADが有意な損失を伴わずに,常に有効かつ高出力の有限サンプルを達成できることを示す広範囲なシミュレーション研究を行う。
関連論文リスト
- VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
マルコフ決定過程(MDP)に対する最善かつ最悪の摂動下での政策評価について検討する。
これは、歴史的環境と将来の環境のシフトの可能性において重要な問題である。
本稿では、ある乗算係数またはその逆数への遷移カーネル密度を変更可能な摂動モデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。
本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。
我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文 参考訳(メタデータ) (2023-11-02T12:46:03Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Adapting to Continuous Covariate Shift via Online Density Ratio Estimation [64.8027122329609]
分散シフトへの対処は、現代の機械学習における中心的な課題の1つだ。
歴史的情報を適切に再利用するオンライン手法を提案する。
我々の密度比推定法は, ダイナミックなリセットバウンドを楽しむことにより, 良好に動作できることが証明された。
論文 参考訳(メタデータ) (2023-02-06T04:03:33Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.7632791497072553]
不愉快な条件下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
我々は、ベルンシュタイン=ヴォン・ミセスの定理の下で、新しい半パラメトリックロバスト性定理を確立することにより、ベイズ的手続きと効率的な頻繁なATE推定器の等価性を証明した。
シミュレーションでは、我々の二重頑健なベイズ法は、既存の頻繁な手法と比較して、大きなバイアス低減と信頼区間のより正確なカバレッジをもたらす。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z) - Conformal Inference of Counterfactuals and Individual Treatment Effects [6.810856082577402]
そこで本研究では,反ファクトや個々の治療効果について,信頼できる間隔を推定できる共形推論に基づく手法を提案する。
既存の手法は、単純なモデルであってもかなりのカバレッジの欠陥に悩まされる。
論文 参考訳(メタデータ) (2020-06-11T01:03:32Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。