論文の概要: Steady Continuous Monitoring is (Just Barely) Impossible for Tests of Unbounded Length
- arxiv url: http://arxiv.org/abs/2408.02821v2
- Date: Wed, 15 Oct 2025 17:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.230566
- Title: Steady Continuous Monitoring is (Just Barely) Impossible for Tests of Unbounded Length
- Title(参考訳): 定常モニタリングは(ほとんど)非有界な長さのテストでは不可能である
- Authors: Eric Bax, Alex Shtoff,
- Abstract要約: ABテストは、統計的に厳密な方法で制御と治療の違いを評価する。
継続的監視の目標のひとつは、早期停止 — コントロールと治療の統計的に重要な違いを可能な限り早く確認する — である。
もう1つのゴールは、より早く確認できない場合、テストの後で重要な違いを発見する統計的能力を維持することである。
- 参考スコア(独自算出の注目度): 0.606364334025468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AB testing evaluates the difference between a control and a treatment in a statistically rigorous manner. Continuous monitoring allows statistical evaluation of an AB test as it proceeds. One goal of continuous monitoring is early stopping -- confirming a statistically significant difference between control and treatment as soon as possible. Another goal is to maintain some statistical capability to discover significant differences later in the test if they cannot be confirmed earlier. These goals are in conflict -- looser requirements for early stopping leave us with more stringent ones for later. This paper shows that it is impossible to maintain a constant requirement for significance for tests that have no a priori stopping time, but we can come arbitrarily close to that goal by using tests that require repeated significant results to con rm statistically significant differences between treatment and control.
- Abstract(参考訳): ABテストは、統計的に厳密な方法で制御と治療の違いを評価する。
継続的モニタリングは、ABテストの進行を統計的に評価することを可能にする。
継続的監視の1つのゴールは、早期停止(早期停止)であり、制御と治療の統計的に重要な違いをできるだけ早く確認することである。もう1つのゴールは、テストで重要な違いを早期に確認できない場合、テストの後半で発見する統計能力を維持することである。これらのゴールは矛盾している。早期停止の要求は緩くなり、その後はより厳密なものが残る。
本論文は, 先行停止時間を持たない試験において, 一定の重要条件を維持することは不可能であるが, 治療とコントロールの統計的に有意な差異を補うために, 反復的な有意な結果を必要とする試験を用いることにより, その目標に任意に近づくことができることを示す。
関連論文リスト
- Predicting fixed-sample test decisions enables anytime-valid inference [0.3222802562733787]
我々は,任意の固定サンプル仮説テストから任意の有意なテストに変換する簡単な手順を導入する。
我々は、null仮説が偽である場合に、かなりのサンプル貯蓄でType-Iエラー制御と準最適パワーを確保する。
臨床試験などの分野では、早期に安全に停止することで、患者が最高の治療を受けられるようにし、効果的な治療法の開発を加速することができる。
論文 参考訳(メタデータ) (2026-02-14T20:17:51Z) - A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。
一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文 参考訳(メタデータ) (2025-03-24T10:06:07Z) - Internal Incoherency Scores for Constraint-based Causal Discovery Algorithms [12.524536193679124]
仮説違反や有限サンプル誤りの検証が可能な内部コヒーレンシスコアを提案する。
シミュレーションおよび実世界のデータセットを用いて,PCアルゴリズムにおけるコヒーレンシースコアについて述べる。
論文 参考訳(メタデータ) (2025-02-20T16:44:54Z) - Sequential Kernelized Stein Discrepancy [29.43493007296859]
カーネル化されたSteinの相違性テストのシーケンシャルバージョン。
我々は、任意の点評価においてスタインカーネルの潜在的有界性を利用して、テストマーチンガレットを定義する。
論文 参考訳(メタデータ) (2024-09-26T03:24:59Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Benchmarking Observational Studies with Experimental Data under
Right-Censoring [18.768537827004536]
検閲時間が時間と時間とは無関係である2つの事例を考察する。
偏りのないCATE推定が不可能な場合でも,同じテストが引き続き使用可能であることを示す。
半合成実験による検閲意識テストの有効性を検証するとともに,女性保健イニシアチブによるRTTおよびOSデータの解析を行った。
論文 参考訳(メタデータ) (2024-02-23T06:44:13Z) - Hidden yet quantifiable: A lower bound for confounding strength using randomized trials [11.437076464287822]
非ランダム化データから引き出された因果関係の結論を損なう可能性がある。
本稿では,ランダム化試行を利用して未観測のコンバウンディングを定量化する新しい手法を提案する。
実世界における観測不能な共起の存在と存在を、我々の下界が正確に識別する方法を示す。
論文 参考訳(メタデータ) (2023-12-06T19:33:34Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Federated Epidemic Surveillance [21.643185633769814]
本研究は, 簡易なフェデレーション監視手法の実現可能性を検討することを目的とする。
疫病関連データストリームの急激な増加を特定するための仮説テストフレームワークを提案する。
我々は,実データと半合成データを用いて,サージ検出のための異なるp値の組み合わせ手法のパワーを評価する。
論文 参考訳(メタデータ) (2023-07-05T19:41:47Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Ensembled Prediction Intervals for Causal Outcomes Under Hidden
Confounding [49.1865229301561]
本稿では,既存の因果感受性モデルを用いた部分同定手法を提案し,Caus-Modensがより厳密な結果区間を与えることを示す。
3つの異なるベンチマークのうち最後のものは、未知だが探究可能な基底真理を持つ観測実験にGPT-4を新たに使用することである。
論文 参考訳(メタデータ) (2023-06-15T21:42:40Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Private Sequential Hypothesis Testing for Statisticians: Privacy, Error
Rates, and Sample Size [24.149533870085175]
我々は、Renyi差分プライバシーとして知られる、差分プライバシーのわずかな変種の下で、シーケンシャル仮説テスト問題を研究する。
我々は,Wald's Sequential Probability Ratio Test (SPRT)に基づく新たなプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-10T04:15:50Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。