論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed
Bandits
- arxiv url: http://arxiv.org/abs/2311.05794v1
- Date: Thu, 9 Nov 2023 23:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:23:38.934838
- Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed
Bandits
- Title(参考訳): 多腕バンディットにおける時効因果推論の実験的設計
- Authors: Biyonka Liang, Iavor Bojinov
- Abstract要約: 腕間の平均治療効果(ATE)を連続的に推測できるマルチアームバンディットの新しい実験設計法を開発した。
Mixture Adaptive Design (MAD)は、ユーザの選択したバンドイアルゴリズムを、調整パラメータ$delta_t$でBernolli設計で"ミックス"する。
我々は,MADが有限サンプル報酬に有意な損失を伴わないMAB実験において,ATE推論のカバレッジとパワーを向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typically, multi-armed bandit (MAB) experiments are analyzed at the end of
the study and thus require the analyst to specify a fixed sample size in
advance. However, in many online learning applications, it is advantageous to
continuously produce inference on the average treatment effect (ATE) between
arms as new data arrive and determine a data-driven stopping time for the
experiment. Existing work on continuous inference for adaptive experiments
assumes that the treatment assignment probabilities are bounded away from zero
and one, thus excluding nearly all standard bandit algorithms. In this work, we
develop the Mixture Adaptive Design (MAD), a new experimental design for
multi-armed bandits that enables continuous inference on the ATE with
guarantees on statistical validity and power for nearly any bandit algorithm.
On a high level, the MAD "mixes" a bandit algorithm of the user's choice with a
Bernoulli design through a tuning parameter $\delta_t$, where $\delta_t$ is a
deterministic sequence that controls the priority placed on the Bernoulli
design as the sample size grows. We show that for $\delta_t =
o\left(1/t^{1/4}\right)$, the MAD produces a confidence sequence that is
asymptotically valid and guaranteed to shrink around the true ATE. We
empirically show that the MAD improves the coverage and power of ATE inference
in MAB experiments without significant losses in finite-sample reward.
- Abstract(参考訳): 通常、マルチアーム・バンディット(MAB)実験は研究の最後に分析され、分析者は事前に一定のサンプルサイズを特定する必要がある。
しかし、多くのオンライン学習アプリケーションでは、新しいデータが到着すると腕間の平均治療効果(ATE)を連続的に予測し、実験のデータ駆動停止時間を決定することが有利である。
適応実験のための継続推論に関する既存の研究は、処理代入確率がゼロと1から外れていると仮定し、したがってほとんどすべての標準バンディットアルゴリズムを除外する。
本研究では,Mixture Adaptive Design (MAD) を開発した。このMixture Adaptive Design (MAD) は,ほとんどの帯域幅アルゴリズムの統計的妥当性とパワーを保証し,ATE上で連続的な推論を可能にするマルチアームバンディットの実験的設計である。
高いレベルでは、MADはBernolli設計でユーザの選択したバンドレートアルゴリズムをチューニングパラメータ$\delta_t$で「ミックス」し、サンプルサイズが大きくなるにつれてBernolli設計上の優先度を制御する決定論的シーケンスを$\delta_t$とする。
我々は、$\delta_t = o\left(1/t^{1/4}\right)$ に対して、MAD は漸近的に有効であり、真の ATE の周囲を縮めることが保証される信頼シーケンスを生成することを示す。
我々は,MADが有限サンプル報酬に有意な損失を伴わないMAB実験において,ATE推論のカバレッジとパワーを向上させることを実証的に示す。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Favour: FAst Variance Operator for Uncertainty Rating [0.034530027457862]
機械学習予測を解釈するための重要なアプローチとしてベイズニューラルネットワーク(BNN)が登場した。
後部分布からサンプリングすることで、データサイエンティストは推論の不確実性を推定することができる。
以前の研究は、ネットワークを介して後部の第1モーメントと第2モーメントを伝播することを提案した。
この方法はサンプリングよりも遅いため、伝播分散を近似する必要がある。
私たちの貢献は、より原則化された分散伝播フレームワークです。
論文 参考訳(メタデータ) (2023-11-21T22:53:20Z) - Implicitly normalized forecaster with clipping for linear and non-linear
heavy-tailed multi-armed bandits [85.27420062094086]
Implicitly Normalized Forecaster (INF) は、敵対的マルチアームバンディット(MAB)問題に対する最適解であると考えられている。
重み付き設定のMAB問題に対するクリッピング(INFclip)を用いたINFの新バージョン"Implicitly Normalized Forecaster"を提案する。
INFclipは線形重み付きMAB問題に対して最適であり、非線形問題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-05-11T12:00:43Z) - On Calibrating Diffusion Probabilistic Models [78.75538484265292]
拡散確率モデル(DPM)は様々な生成タスクにおいて有望な結果を得た。
そこで本研究では,任意の事前学習DPMを校正する簡単な方法を提案する。
キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。
論文 参考訳(メタデータ) (2023-02-21T14:14:40Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Stable Probability Weighting: Large-Sample and Finite-Sample Estimation
and Inference Methods for Heterogeneous Causal Effects of Multivalued
Treatments Under Limited Overlap [0.0]
異種因果効果を推定・推定するための実用的大サンプルおよび有限サンプル法を提案する。
安定確率重み付け(Stable Probability Weighting)という一般原理を考案する。
また、弱null仮説の一般クラスをテストするための新しい有限サンプル推論手法を提案する。
論文 参考訳(メタデータ) (2023-01-13T18:52:18Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - Weak Signal Asymptotics for Sequentially Randomized Experiments [2.28438857884398]
マルチアームバンディット問題を解く際に発生するものを含む,逐次ランダム化実験のクラスについて検討する。
一連の逐次ランダム化実験のサンプルパスは拡散限界に弱収束することを示す。
ランダム化確率が観測データに連続的に依存する連続的な実験は、報酬ギャップが比較的大きい場合に、最適以下の後悔に悩まされることを示す。
論文 参考訳(メタデータ) (2021-01-25T02:20:20Z) - Borrowing From the Future: Addressing Double Sampling in Model-free
Control [8.282602586225833]
本稿では,BFFアルゴリズムをアクション値関数に基づくモデルフリー制御に拡張する。
BFF が非バイアスの SGD に近づき、基礎となる力学が動作に関してゆっくりと変化する。
論文 参考訳(メタデータ) (2020-06-11T03:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。