論文の概要: Steady Continuous Monitoring is (Just Barely) Impossible for Tests of Unbounded Length
- arxiv url: http://arxiv.org/abs/2408.02821v2
- Date: Wed, 15 Oct 2025 17:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.230566
- Title: Steady Continuous Monitoring is (Just Barely) Impossible for Tests of Unbounded Length
- Title(参考訳): 定常モニタリングは(ほとんど)非有界な長さのテストでは不可能である
- Authors: Eric Bax, Alex Shtoff,
- Abstract要約: ABテストは、統計的に厳密な方法で制御と治療の違いを評価する。
継続的監視の目標のひとつは、早期停止 — コントロールと治療の統計的に重要な違いを可能な限り早く確認する — である。
もう1つのゴールは、より早く確認できない場合、テストの後で重要な違いを発見する統計的能力を維持することである。
- 参考スコア(独自算出の注目度): 0.606364334025468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AB testing evaluates the difference between a control and a treatment in a statistically rigorous manner. Continuous monitoring allows statistical evaluation of an AB test as it proceeds. One goal of continuous monitoring is early stopping -- confirming a statistically significant difference between control and treatment as soon as possible. Another goal is to maintain some statistical capability to discover significant differences later in the test if they cannot be confirmed earlier. These goals are in conflict -- looser requirements for early stopping leave us with more stringent ones for later. This paper shows that it is impossible to maintain a constant requirement for significance for tests that have no a priori stopping time, but we can come arbitrarily close to that goal by using tests that require repeated significant results to con rm statistically significant differences between treatment and control.
- Abstract(参考訳): ABテストは、統計的に厳密な方法で制御と治療の違いを評価する。
継続的モニタリングは、ABテストの進行を統計的に評価することを可能にする。
継続的監視の1つのゴールは、早期停止(早期停止)であり、制御と治療の統計的に重要な違いをできるだけ早く確認することである。もう1つのゴールは、テストで重要な違いを早期に確認できない場合、テストの後半で発見する統計能力を維持することである。これらのゴールは矛盾している。早期停止の要求は緩くなり、その後はより厳密なものが残る。
本論文は, 先行停止時間を持たない試験において, 一定の重要条件を維持することは不可能であるが, 治療とコントロールの統計的に有意な差異を補うために, 反復的な有意な結果を必要とする試験を用いることにより, その目標に任意に近づくことができることを示す。
関連論文リスト
- A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。
一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文 参考訳(メタデータ) (2025-03-24T10:06:07Z) - Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。
シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文 参考訳(メタデータ) (2025-02-20T16:44:54Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Hidden yet quantifiable: A lower bound for confounding strength using randomized trials [11.437076464287822]
非ランダム化データから引き出された因果関係の結論を損なう可能性がある。
本稿では,ランダム化試行を利用して未観測のコンバウンディングを定量化する新しい手法を提案する。
実世界における観測不能な共起の存在と存在を、我々の下界が正確に識別する方法を示す。
論文 参考訳(メタデータ) (2023-12-06T19:33:34Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Federated Epidemic Surveillance [21.643185633769814]
本研究は, 簡易なフェデレーション監視手法の実現可能性を検討することを目的とする。
疫病関連データストリームの急激な増加を特定するための仮説テストフレームワークを提案する。
我々は,実データと半合成データを用いて,サージ検出のための異なるp値の組み合わせ手法のパワーを評価する。
論文 参考訳(メタデータ) (2023-07-05T19:41:47Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Ensembled Prediction Intervals for Causal Outcomes Under Hidden
Confounding [49.1865229301561]
本稿では,既存の因果感受性モデルを用いた部分同定手法を提案し,Caus-Modensがより厳密な結果区間を与えることを示す。
3つの異なるベンチマークのうち最後のものは、未知だが探究可能な基底真理を持つ観測実験にGPT-4を新たに使用することである。
論文 参考訳(メタデータ) (2023-06-15T21:42:40Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Private Sequential Hypothesis Testing for Statisticians: Privacy, Error
Rates, and Sample Size [24.149533870085175]
我々は、Renyi差分プライバシーとして知られる、差分プライバシーのわずかな変種の下で、シーケンシャル仮説テスト問題を研究する。
我々は,Wald's Sequential Probability Ratio Test (SPRT)に基づく新たなプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-10T04:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。