Fugu-MT 論文翻訳(概要): An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

論文の概要: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

arxiv url: http://arxiv.org/abs/2311.05794v3
Date: Fri, 14 Jun 2024 20:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 11:31:28.955535
Title: An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits
Title（参考訳）: マルチアーマッド帯域における任意のValid因果推論のための実験設計
Authors: Biyonka Liang, Iavor Bojinov,
Abstract要約: 本稿では、平均処理効果(ATE)に対する任意の有効推論を可能にするマルチアーム・バンディット(MAB)アルゴリズムの新たな実験的設計を提案する。また,MADは,標準バンディット設計と比較して,報酬のかなりの損失を伴わず,正確かつ正確にATEを推定しながら有限サンプル値を達成することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Experimentation is crucial for managers to rigorously quantify the value of a change and determine if it leads to a statistically significant improvement over the status quo, thus augmenting their decision-making. Many companies now mandate that all changes undergo experimentation, presenting two challenges: (1) reducing the risk/cost of experimentation by minimizing the proportion of customers assigned to the inferior treatment and (2) increasing the experimentation velocity by enabling managers to stop experiments as soon as results are statistically significant. This paper simultaneously addresses both challenges by proposing the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit (MAB) algorithms that enables anytime valid inference on the Average Treatment Effect (ATE) for any MAB algorithm. Intuitively, the MAB "mixes" any bandit algorithm with a Bernoulli design such that at each time step, the probability that a customer is assigned via the Bernoulli design is controlled by a user-specified deterministic sequence that can converge to zero. The sequence enables managers to directly and interpretably control the trade-off between regret minimization and inferential precision. Under mild conditions on the rate the sequence converges to zero, we provide a confidence sequence that is asymptotically anytime valid and demonstrate that the MAD is guaranteed to have a finite stopping time in the presence of a true non-zero ATE. Hence, the MAD allows managers to stop experiments early when a significant ATE is detected while ensuring valid inference, enhancing both the efficiency and reliability of adaptive experiments. Empirically, we demonstrate that the MAD achieves finite-sample anytime-validity while accurately and precisely estimating the ATE, all without incurring significant losses in reward compared to standard bandit designs.
Abstract（参考訳）: マネージャにとって実験は、変化の価値を厳格に定量化し、それが現状に対する統計的に重要な改善につながるかどうかを判断し、意思決定を強化するために不可欠である。現在では、下級治療に割り当てられた顧客の比率を最小にすることで、実験のリスク・コストを低減し、結果が統計的に有意となると、管理者が実験を早期に停止させることで、実験速度を高めるという2つの課題を提起する企業が多い。本稿では,Mixture Adaptive Design(MAD)という,MABアルゴリズムに対する平均処理効果(ATE)を任意の時間で推定できるマルチアームバンディット(MAB)アルゴリズムの実験設計を提案する。直感的には、MABは任意のバンディットアルゴリズムをベルヌーイの設計と「混合」し、各段階において、顧客がベルヌーイの設計を介して割り当てられる確率は、ゼロに収束できるユーザ特定決定論的シーケンスによって制御される。このシーケンスにより、マネージャは、後悔の最小化と推論精度の間のトレードオフを直接的かつ解釈的に制御できる。列が 0 に収束する速度に関する穏やかな条件下では、漸近的に有効である信頼シーケンスを提供し、真非零ATE の存在下では MAD が有限停止時間を持つことを保証している。したがって、MADにより、マネージャは有効な推論を確保しつつ、重要なATEが検出された時点で実験を早期に停止することができ、適応実験の効率性と信頼性を向上することができる。実験により,MADは,標準バンディット設計に比べて報酬に大きな損失を与えることなく,精度よく精度良くATEを推定しながら有限サンプル値を達成することを示した。

関連論文リスト

Fixed-Horizon Self-Normalized Inference for Adaptive Experiments via Martingale AIPW/DML with Logged Propensities [0.0]
適応的な割り当ての下では、確率は変化し続けるため、AIPW/DMLインクリメントの予測可能な2次変動はランダムのままである。本研究では,2次変動によって推定される偏差が,分散安定化を伴わずとも条件的に誤校正されていることを示す。
論文参考訳（メタデータ） (2026-02-17T13:12:31Z)
Fast Rerandomization for Balancing Covariates in Randomized Experiments: A Metropolis-Hastings Framework [12.297315057225532]
本稿では,精度と妥当性を維持しつつ,10～10,000倍の高速化を実現するアルゴリズムを提案する。提案アルゴリズムであるPSRSRRは,精度と妥当性を維持しつつ,10～10,000倍の高速化を実現する。
論文参考訳（メタデータ） (2026-02-07T16:40:27Z)
Exploration in the Limit [37.0278529107694]
最小サンプルサイズに対して有効なエラー制御を必要とする緩和された定式化を導入する。これは、弱い信号、高い所望の重要度、実験後の推論要求を含む多くの実世界の設定と整合する。我々は、腕の指標よりも常に有効な新しい信頼シーケンスを開発し、それを用いて、フレームワークのための新しいBAIアルゴリズムを設計する。
論文参考訳（メタデータ） (2025-12-31T19:27:59Z)
Statistical Inference under Adaptive Sampling with LinUCB [15.167069362020426]
線形帯域に対する線形上信頼境界(LinUCB)アルゴリズムは安定性という特性を満たすことを示す。我々は、LinUCBアルゴリズムの中央極限定理を確立し、推定誤差の極限分布の正規性を確立する。
論文参考訳（メタデータ） (2025-11-28T21:48:18Z)
COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Learning the Optimal Stopping for Early Classification within Finite Horizons via Sequential Probability Ratio Test [11.199585259018459]
時系列の早期分類に最適な停止時間を提供するSPRT(Sequential Probability Ratio Test)による、時間に敏感な機械学習の利点。入力長が有限である有限地平線シナリオでは、後ろ向きの誘導を必要とするため、最適停止規則を決定することが計算集約化される。本稿では,SPRTベースのフレームワークであるFIRMBOUNDを紹介する。
論文参考訳（メタデータ） (2025-01-29T23:54:46Z)
VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。 VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文参考訳（メタデータ） (2024-05-12T15:55:43Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文参考訳（メタデータ） (2024-02-19T03:08:02Z)
Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文参考訳（メタデータ） (2023-11-03T21:19:59Z)
Score Matching-based Pseudolikelihood Estimation of Neural Marked Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文参考訳（メタデータ） (2023-10-25T02:37:51Z)
Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文参考訳（メタデータ） (2023-09-23T06:35:44Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文参考訳（メタデータ） (2022-12-29T18:37:08Z)
Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文参考訳（メタデータ） (2022-11-29T15:32:25Z)
Neighborhood Spatial Aggregation MC Dropout for Efficient Uncertainty-aware Semantic Segmentation in Point Clouds [8.98036662506975]
不確実性を考慮した点雲のセマンティックセマンティックセグメンテーションには、予測的不確実性推定と不確実性誘導モデル最適化が含まれる。広く使われているMCドロップアウトは、複数の前方伝播を用いてサンプルの標準偏差を計算することによって分布を確立する。 MCドロップアウトの変種であるNSA-MCドロップアウトを組み込んだフレームワークが提案され、たった1つのフォワードパスで配布を確立する。
論文参考訳（メタデータ） (2021-12-05T02:22:32Z)
On the Practicality of Differential Privacy in Federated Learning by Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文参考訳（メタデータ） (2021-01-11T19:43:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。