Fugu-MT 論文翻訳(概要): An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

arxiv url: http://arxiv.org/abs/2311.05794v1
Date: Thu, 9 Nov 2023 23:57:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 16:23:38.934838
Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
Title（参考訳）: 多腕バンディットにおける時効因果推論の実験的設計
Authors: Biyonka Liang, Iavor Bojinov
Abstract要約: 腕間の平均治療効果(ATE)を連続的に推測できるマルチアームバンディットの新しい実験設計法を開発した。 Mixture Adaptive Design (MAD)は、ユーザの選択したバンドイアルゴリズムを、調整パラメータ$delta_t$でBernolli設計で"ミックス"する。我々は,MADが有限サンプル報酬に有意な損失を伴わないMAB実験において,ATE推論のカバレッジとパワーを向上させることを実証的に示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Typically, multi-armed bandit (MAB) experiments are analyzed at the end of the study and thus require the analyst to specify a fixed sample size in advance. However, in many online learning applications, it is advantageous to continuously produce inference on the average treatment effect (ATE) between arms as new data arrive and determine a data-driven stopping time for the experiment. Existing work on continuous inference for adaptive experiments assumes that the treatment assignment probabilities are bounded away from zero and one, thus excluding nearly all standard bandit algorithms. In this work, we develop the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandits that enables continuous inference on the ATE with guarantees on statistical validity and power for nearly any bandit algorithm. On a high level, the MAD "mixes" a bandit algorithm of the user's choice with a Bernoulli design through a tuning parameter $\delta_t$, where $\delta_t$ is a deterministic sequence that controls the priority placed on the Bernoulli design as the sample size grows. We show that for $\delta_t = o\left(1/t^{1/4}\right)$, the MAD produces a confidence sequence that is asymptotically valid and guaranteed to shrink around the true ATE. We empirically show that the MAD improves the coverage and power of ATE inference in MAB experiments without significant losses in finite-sample reward.
Abstract（参考訳）: 通常、マルチアーム・バンディット(MAB)実験は研究の最後に分析され、分析者は事前に一定のサンプルサイズを特定する必要がある。しかし、多くのオンライン学習アプリケーションでは、新しいデータが到着すると腕間の平均治療効果(ATE)を連続的に予測し、実験のデータ駆動停止時間を決定することが有利である。適応実験のための継続推論に関する既存の研究は、処理代入確率がゼロと1から外れていると仮定し、したがってほとんどすべての標準バンディットアルゴリズムを除外する。本研究では,Mixture Adaptive Design (MAD) を開発した。このMixture Adaptive Design (MAD) は,ほとんどの帯域幅アルゴリズムの統計的妥当性とパワーを保証し,ATE上で連続的な推論を可能にするマルチアームバンディットの実験的設計である。高いレベルでは、MADはBernolli設計でユーザの選択したバンドレートアルゴリズムをチューニングパラメータ$\delta_t$で「ミックス」し、サンプルサイズが大きくなるにつれてBernolli設計上の優先度を制御する決定論的シーケンスを$\delta_t$とする。我々は、$\delta_t = o\left(1/t^{1/4}\right)$ に対して、MAD は漸近的に有効であり、真の ATE の周囲を縮めることが保証される信頼シーケンスを生成することを示す。我々は,MADが有限サンプル報酬に有意な損失を伴わないMAB実験において,ATE推論のカバレッジとパワーを向上させることを実証的に示す。

関連論文リスト

COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Learning the Optimal Stopping for Early Classification within Finite Horizons via Sequential Probability Ratio Test [11.199585259018459]
時系列の早期分類に最適な停止時間を提供するSPRT(Sequential Probability Ratio Test)による、時間に敏感な機械学習の利点。入力長が有限である有限地平線シナリオでは、後ろ向きの誘導を必要とするため、最適停止規則を決定することが計算集約化される。本稿では,SPRTベースのフレームワークであるFIRMBOUNDを紹介する。
論文参考訳（メタデータ） (2025-01-29T23:54:46Z)
VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。 VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文参考訳（メタデータ） (2024-05-12T15:55:43Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文参考訳（メタデータ） (2023-11-03T21:19:59Z)
Score Matching-based Pseudolikelihood Estimation of Neural Marked Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文参考訳（メタデータ） (2023-10-25T02:37:51Z)
Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文参考訳（メタデータ） (2023-09-23T06:35:44Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文参考訳（メタデータ） (2022-12-29T18:37:08Z)
Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文参考訳（メタデータ） (2022-11-29T15:32:25Z)
Neighborhood Spatial Aggregation MC Dropout for Efficient Uncertainty-aware Semantic Segmentation in Point Clouds [8.98036662506975]
不確実性を考慮した点雲のセマンティックセマンティックセグメンテーションには、予測的不確実性推定と不確実性誘導モデル最適化が含まれる。広く使われているMCドロップアウトは、複数の前方伝播を用いてサンプルの標準偏差を計算することによって分布を確立する。 MCドロップアウトの変種であるNSA-MCドロップアウトを組み込んだフレームワークが提案され、たった1つのフォワードパスで配布を確立する。
論文参考訳（メタデータ） (2021-12-05T02:22:32Z)
On the Practicality of Differential Privacy in Federated Learning by Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文参考訳（メタデータ） (2021-01-11T19:43:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。