論文の概要: A Permutation-free Kernel Two-Sample Test
- arxiv url: http://arxiv.org/abs/2211.14908v1
- Date: Sun, 27 Nov 2022 18:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:18:43.327448
- Title: A Permutation-free Kernel Two-Sample Test
- Title(参考訳): 無置換カーネル2サンプル試験
- Authors: Shubhanshu Shekhar, Ilmun Kim, Aaditya Ramdas
- Abstract要約: サンプル分割と学生化に基づく2次時間MDDテスト統計法を提案する。
大きなサンプルサイズの場合、我々の新しいクロスMMDはMDDよりも大幅にスピードアップし、わずかに電力を消費するだけである。
- 参考スコア(独自算出の注目度): 36.50719125230106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The kernel Maximum Mean Discrepancy~(MMD) is a popular multivariate distance
metric between distributions that has found utility in two-sample testing. The
usual kernel-MMD test statistic is a degenerate U-statistic under the null, and
thus it has an intractable limiting distribution. Hence, to design a
level-$\alpha$ test, one usually selects the rejection threshold as the
$(1-\alpha)$-quantile of the permutation distribution. The resulting
nonparametric test has finite-sample validity but suffers from large
computational cost, since every permutation takes quadratic time. We propose
the cross-MMD, a new quadratic-time MMD test statistic based on
sample-splitting and studentization. We prove that under mild assumptions, the
cross-MMD has a limiting standard Gaussian distribution under the null.
Importantly, we also show that the resulting test is consistent against any
fixed alternative, and when using the Gaussian kernel, it has minimax
rate-optimal power against local alternatives. For large sample sizes, our new
cross-MMD provides a significant speedup over the MMD, for only a slight loss
in power.
- Abstract(参考訳): kernel maximum mean discrepancy~(mmd)は、2つのサンプルテストで有用性を見出した分布間の一般的な多変数距離メトリックである。
通常のカーネル-MMDテスト統計は、ヌルの下での退化U統計であり、難解な制限分布を持つ。
したがって、レベル-$\alpha$ テストを設計するには、通常、拒絶しきい値を置換分布の$(1-\alpha)$-quantileとして選択する。
結果の非パラメトリックテストは有限サンプルの妥当性を持つが、全ての置換に2次時間を要するため、計算コストが大きい。
サンプル分割と学生化に基づく新しい2次時間MDDテスト統計であるクロスMMDを提案する。
穏やかな仮定の下では、クロスMMD は null の下での標準ガウス分布に制限があることを示す。
重要なことに、得られたテストは任意の固定された代替品に対して一貫性があることを示し、ガウスカーネルを使用する場合、局所的な代替品に対して最小の速度最適化力を持つ。
大きなサンプルサイズの場合、我々の新しいクロスMMDはMDDよりも大幅にスピードアップし、わずかに電力が失われる。
関連論文リスト
- Computational-Statistical Trade-off in Kernel Two-Sample Testing with Random Fourier Features [3.744589644319257]
MMD(Maximum Mean Discrepancy)テストは、複雑で高次元のデータを扱う効果的なツールとして登場した。
MMD試験と同じ出力保証を準4次時間で達成できるかどうかは不明だ。
準4次時間内にMDD試験と同じミニマックス分離率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T04:08:01Z) - Partial identification of kernel based two sample tests with mismeasured
data [5.076419064097733]
最大平均離散性(MMD)のような2サンプルテストは、機械学習アプリケーションにおける2つの分布の違いを検出するためにしばしば使用される。
我々は,1つの分布の非ランダムな$epsilon$%が互いに誤ってグループ化されるような,$epsilon$-contaminationに基づくMDDの推定について検討した。
そこで本研究では,これらの境界を推定する手法を提案し,サンプルサイズが大きくなるにつれてMDD上の最も鋭い限界に収束する推定値を示す。
論文 参考訳(メタデータ) (2023-08-07T13:21:58Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Efficient Aggregated Kernel Tests using Incomplete $U$-statistics [22.251118308736327]
提案した3つのテストは、複数のカーネル帯域に集約され、さまざまなスケールでnullからの離脱を検出する。
提案した線形時間集約テストは,現在最先端の線形時間カーネルテストよりも高い出力が得られることを示す。
論文 参考訳(メタデータ) (2022-06-18T12:30:06Z) - MMD Aggregated Two-Sample Test [31.116276769013204]
平均最大離散性(MMD)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。
まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。
本研究では,この実験が非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。
論文 参考訳(メタデータ) (2021-10-28T12:47:49Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z) - Optimal Testing of Discrete Distributions with High Probability [49.19942805582874]
高確率状態に着目して離散分布を試験する問題について検討する。
一定の要素でサンプル最適である近接性および独立性テストのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-14T16:09:17Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。