論文の概要: Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity
- arxiv url: http://arxiv.org/abs/2304.13848v1
- Date: Wed, 26 Apr 2023 22:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:03:33.750584
- Title: Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity
- Title(参考訳): 異種性を考慮した非パラメトリック2サンプル推論のためのブートストラップエッジカウントテスト
- Authors: Trambak Banerjee, Bhaswar B. Bhattacharya, Gourab Mukherjee
- Abstract要約: 両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nonparametric two-sample testing is a classical problem in inferential
statistics. While modern two-sample tests, such as the edge count test and its
variants, can handle multivariate and non-Euclidean data, contemporary
gargantuan datasets often exhibit heterogeneity due to the presence of latent
subpopulations. Direct application of these tests, without regulating for such
heterogeneity, may lead to incorrect statistical decisions. We develop a new
nonparametric testing procedure that accurately detects differences between the
two samples in the presence of unknown heterogeneity in the data generation
process. Our framework handles this latent heterogeneity through a composite
null that entertains the possibility that the two samples arise from a mixture
distribution with identical component distributions but with possibly different
mixing weights. In this regime, we study the asymptotic behavior of weighted
edge count test statistic and show that it can be effectively re-calibrated to
detect arbitrary deviations from the composite null. For practical
implementation we propose a Bootstrapped Weighted Edge Count test which
involves a bootstrap-based calibration procedure that can be easily implemented
across a wide range of heterogeneous regimes. A comprehensive simulation study
and an application to detecting aberrant user behaviors in online games
demonstrates the excellent non-asymptotic performance of the proposed test.
- Abstract(参考訳): 非パラメトリック2サンプルテストは推論統計学における古典的な問題である。
エッジカウントテストやその変種のような現代の2サンプルテストは多変量および非ユークリッドデータを扱うことができるが、現代のガルガントゥアンデータセットは潜伏する亜集団の存在により不均一性を示すことが多い。
これらのテストの直接適用は、そのような不均一性を規制することなく、誤った統計的決定につながる可能性がある。
我々は,データ生成プロセスにおける未知の不均一性の存在下で,2つのサンプル間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
筆者らのフレームワークは, この潜伏不均一性を扱う複合ヌルを用いて, 同一成分分布の混合分布から, 混合重みの異なる2つの試料が生じる可能性を楽しませる。
本研究では,重み付きエッジカウントテストの統計的漸近的挙動について検討し,複合ヌルから任意の偏差を検出するために効果的に再調整できることを示す。
そこで本研究では,多種多様なシステムで容易に実装可能なブートストラップに基づく校正手順を含むブートストラップ重み付きエッジカウントテストを提案する。
オンラインゲームにおける異常ユーザ行動検出のための総合的なシミュレーション研究と応用により,提案するテストの非漸近的性能が向上した。
関連論文リスト
- Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - A framework for paired-sample hypothesis testing for high-dimensional
data [7.400168551191579]
我々は、各一対のインスタンスを接続するラインセグメントの双分割超平面によって定義される決定規則によって、スコアリング関数が生成できるという考えを提唱した。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
論文 参考訳(メタデータ) (2023-09-28T09:17:11Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Nonparametric Empirical Bayes Estimation and Testing for Sparse and
Heteroscedastic Signals [5.715675926089834]
大規模な現代データは、しばしば高次元未知パラメータの推定とテストを伴う。
粗い信号、干し草の巣の針を精度と誤検出制御で識別することが望ましい。
本稿では,SNP(Spyke-and-Nonparametric mixture prior)を提案する。
論文 参考訳(メタデータ) (2021-06-16T15:55:44Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Distributed, partially collapsed MCMC for Bayesian Nonparametrics [68.5279360794418]
ディリクレ法やベータ・ベルヌーリ法のようなモデルでよく用いられる完全無作為測度は独立な部分測度に分解可能であるという事実を利用する。
この分解を用いて、潜在測度を、インスタンス化された成分のみを含む有限測度と、他のすべての成分を含む無限測度に分割する。
得られたハイブリッドアルゴリズムは、収束保証を犠牲にすることなくスケーラブルな推論を可能にすることができる。
論文 参考訳(メタデータ) (2020-01-15T23:10:13Z) - Nonparametric Inference under B-bits Quantization [5.958064620718292]
そこで本研究では,B$ビットに量子化されたサンプルに基づく非パラメトリック試験手法を提案する。
特に、B$が一定の閾値を超えると、提案した非パラメトリックテスト手順が古典的なミニマックステスト率を達成することを示す。
論文 参考訳(メタデータ) (2019-01-24T18:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。