論文の概要: Continuous Monitoring via Repeated Significance
- arxiv url: http://arxiv.org/abs/2408.02821v1
- Date: Mon, 5 Aug 2024 20:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:38:41.226715
- Title: Continuous Monitoring via Repeated Significance
- Title(参考訳): 反復的意義による継続的モニタリング
- Authors: Eric Bax, Arundhyoti Sarkar, Alex Shtoff,
- Abstract要約: テストの重要度に対する一定の要件を維持することは不可能であるが、その目標に任意に近づくことは可能である。
テストの重要度に対する一定の要件を維持することは不可能であるが、その目標に任意に近づくことは可能である。
- 参考スコア(独自算出の注目度): 0.24578723416255754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Requiring statistical significance at multiple interim analyses to declare a statistically significant result for an AB test allows less stringent requirements for significance at each interim analysis. Repeated repeated significance competes well with methods built on assumptions about the test -- assumptions that may be impossible to evaluate a priori and may require extra data to evaluate empirically. Instead, requiring repeated significance allows the data itself to prove directly that the required results are not due to chance alone. We explain how to apply tests with repeated significance to continuously monitor unbounded tests -- tests that do not have an a priori bound on running time or number of observations. We show that it is impossible to maintain a constant requirement for significance for unbounded tests, but that we can come arbitrarily close to that goal.
- Abstract(参考訳): ABテストで統計的に有意な結果を宣言するために、複数の中間分析において統計的に重要なことを要求すると、各中間解析において重要度に対する厳密な要求がより少なくなる。
繰り返し繰り返される重要度は、テストに関する仮定に基づいて構築されたメソッドとよく競合する -- 優先順位を評価することは不可能であり、経験的に評価するために余分なデータを必要とする可能性がある。代わりに、反復的な重要度を要求することは、データ自体に直接、必要となる結果が偶然に起因していないことを証明できるようにする。我々は、反復的な重要度を持つテストを適用して、非有界テストの継続的な監視 -- 実行時間や観測回数に制約のないテスト -- をどのように行うかを説明する。
非有界テストの重要度に対する一定の要件を維持することは不可能であるが、その目標に任意に近づくことは可能である。
関連論文リスト
- To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Hidden yet quantifiable: A lower bound for confounding strength using randomized trials [11.437076464287822]
非ランダム化データから引き出された因果関係の結論を損なう可能性がある。
本稿では,ランダム化試行を利用して未観測のコンバウンディングを定量化する新しい手法を提案する。
実世界における観測不能な共起の存在と存在を、我々の下界が正確に識別する方法を示す。
論文 参考訳(メタデータ) (2023-12-06T19:33:34Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Federated Epidemic Surveillance [21.643185633769814]
本研究は, 簡易なフェデレーション監視手法の実現可能性を検討することを目的とする。
疫病関連データストリームの急激な増加を特定するための仮説テストフレームワークを提案する。
我々は,実データと半合成データを用いて,サージ検出のための異なるp値の組み合わせ手法のパワーを評価する。
論文 参考訳(メタデータ) (2023-07-05T19:41:47Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Ensembled Prediction Intervals for Causal Outcomes Under Hidden
Confounding [49.1865229301561]
本稿では,既存の因果感受性モデルを用いた部分同定手法を提案し,Caus-Modensがより厳密な結果区間を与えることを示す。
3つの異なるベンチマークのうち最後のものは、未知だが探究可能な基底真理を持つ観測実験にGPT-4を新たに使用することである。
論文 参考訳(メタデータ) (2023-06-15T21:42:40Z) - Testing for Overfitting [0.0]
オーバーフィッティング問題について議論し、トレーニングデータによる評価に標準値と集中値が成立しない理由を説明する。
本稿では,モデルの性能をトレーニングデータを用いて評価できる仮説テストを紹介し,議論する。
論文 参考訳(メタデータ) (2023-05-09T22:49:55Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Private Sequential Hypothesis Testing for Statisticians: Privacy, Error
Rates, and Sample Size [24.149533870085175]
我々は、Renyi差分プライバシーとして知られる、差分プライバシーのわずかな変種の下で、シーケンシャル仮説テスト問題を研究する。
我々は,Wald's Sequential Probability Ratio Test (SPRT)に基づく新たなプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-10T04:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。