論文の概要: Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity
- arxiv url: http://arxiv.org/abs/2304.13848v1
- Date: Wed, 26 Apr 2023 22:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:03:33.750584
- Title: Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity
- Title(参考訳): 異種性を考慮した非パラメトリック2サンプル推論のためのブートストラップエッジカウントテスト
- Authors: Trambak Banerjee, Bhaswar B. Bhattacharya, Gourab Mukherjee
- Abstract要約: 両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nonparametric two-sample testing is a classical problem in inferential
statistics. While modern two-sample tests, such as the edge count test and its
variants, can handle multivariate and non-Euclidean data, contemporary
gargantuan datasets often exhibit heterogeneity due to the presence of latent
subpopulations. Direct application of these tests, without regulating for such
heterogeneity, may lead to incorrect statistical decisions. We develop a new
nonparametric testing procedure that accurately detects differences between the
two samples in the presence of unknown heterogeneity in the data generation
process. Our framework handles this latent heterogeneity through a composite
null that entertains the possibility that the two samples arise from a mixture
distribution with identical component distributions but with possibly different
mixing weights. In this regime, we study the asymptotic behavior of weighted
edge count test statistic and show that it can be effectively re-calibrated to
detect arbitrary deviations from the composite null. For practical
implementation we propose a Bootstrapped Weighted Edge Count test which
involves a bootstrap-based calibration procedure that can be easily implemented
across a wide range of heterogeneous regimes. A comprehensive simulation study
and an application to detecting aberrant user behaviors in online games
demonstrates the excellent non-asymptotic performance of the proposed test.
- Abstract(参考訳): 非パラメトリック2サンプルテストは推論統計学における古典的な問題である。
エッジカウントテストやその変種のような現代の2サンプルテストは多変量および非ユークリッドデータを扱うことができるが、現代のガルガントゥアンデータセットは潜伏する亜集団の存在により不均一性を示すことが多い。
これらのテストの直接適用は、そのような不均一性を規制することなく、誤った統計的決定につながる可能性がある。
我々は,データ生成プロセスにおける未知の不均一性の存在下で,2つのサンプル間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
筆者らのフレームワークは, この潜伏不均一性を扱う複合ヌルを用いて, 同一成分分布の混合分布から, 混合重みの異なる2つの試料が生じる可能性を楽しませる。
本研究では,重み付きエッジカウントテストの統計的漸近的挙動について検討し,複合ヌルから任意の偏差を検出するために効果的に再調整できることを示す。
そこで本研究では,多種多様なシステムで容易に実装可能なブートストラップに基づく校正手順を含むブートストラップ重み付きエッジカウントテストを提案する。
オンラインゲームにおける異常ユーザ行動検出のための総合的なシミュレーション研究と応用により,提案するテストの非漸近的性能が向上した。
関連論文リスト
- A Kernel-Based Conditional Two-Sample Test Using Nearest Neighbors (with Applications to Calibration, Regression Curves, and Simulation-Based Inference) [3.622435665395788]
本稿では,2つの条件分布の違いを検出するカーネルベースの尺度を提案する。
2つの条件分布が同じである場合、推定はガウス極限を持ち、その分散はデータから容易に推定できる単純な形式を持つ。
また、条件付き適合性問題に適用可能な推定値を用いた再サンプリングベースのテストも提供する。
論文 参考訳(メタデータ) (2024-07-23T15:04:38Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Nonparametric Empirical Bayes Estimation and Testing for Sparse and
Heteroscedastic Signals [5.715675926089834]
大規模な現代データは、しばしば高次元未知パラメータの推定とテストを伴う。
粗い信号、干し草の巣の針を精度と誤検出制御で識別することが望ましい。
本稿では,SNP(Spyke-and-Nonparametric mixture prior)を提案する。
論文 参考訳(メタデータ) (2021-06-16T15:55:44Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Adaptive, Rate-Optimal Hypothesis Testing in Nonparametric IV Models [2.07706336594149]
非パラメトリック機器変数(NPIV)モデルにおける構造関数に対する不等式(モノトニック性、凸性など)と等式(パラメトリック、半パラメトリック)の新たな適応仮説テストを提案する。
本試験は,楽器の内在性と未知強度の存在下での代替関数の未知の滑らかさに適応する。
論文 参考訳(メタデータ) (2020-06-17T01:19:13Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z) - Asymptotic Validity and Finite-Sample Properties of Approximate Randomization Tests [2.28438857884398]
我々の理論的な重要な貢献は、ノイズレスデータを用いた近似ランダム化テストのサイズと元のランダム化テストのサイズとの差に非漸近的境界を持つことである。
線形回帰における有意性のテストを含むいくつかの例を通して、我々の理論を解説する。
論文 参考訳(メタデータ) (2019-08-12T16:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。