論文の概要: MMD Aggregated Two-Sample Test
- arxiv url: http://arxiv.org/abs/2110.15073v4
- Date: Mon, 21 Aug 2023 15:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:24:28.465051
- Title: MMD Aggregated Two-Sample Test
- Title(参考訳): MMD集積2サンプル試験
- Authors: Antonin Schrab and Ilmun Kim and M\'elisande Albert and B\'eatrice
Laurent and Benjamin Guedj and Arthur Gretton
- Abstract要約: 平均最大離散性(MMD)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。
まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。
本研究では,この実験が非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。
- 参考スコア(独自算出の注目度): 31.116276769013204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose two novel nonparametric two-sample kernel tests based on the
Maximum Mean Discrepancy (MMD). First, for a fixed kernel, we construct an MMD
test using either permutations or a wild bootstrap, two popular numerical
procedures to determine the test threshold. We prove that this test controls
the probability of type I error non-asymptotically. Hence, it can be used
reliably even in settings with small sample sizes as it remains
well-calibrated, which differs from previous MMD tests which only guarantee
correct test level asymptotically. When the difference in densities lies in a
Sobolev ball, we prove minimax optimality of our MMD test with a specific
kernel depending on the smoothness parameter of the Sobolev ball. In practice,
this parameter is unknown and, hence, the optimal MMD test with this particular
kernel cannot be used. To overcome this issue, we construct an aggregated test,
called MMDAgg, which is adaptive to the smoothness parameter. The test power is
maximised over the collection of kernels used, without requiring held-out data
for kernel selection (which results in a loss of test power), or arbitrary
kernel choices such as the median heuristic. We prove that MMDAgg still
controls the level non-asymptotically, and achieves the minimax rate over
Sobolev balls, up to an iterated logarithmic term. Our guarantees are not
restricted to a specific type of kernel, but hold for any product of
one-dimensional translation invariant characteristic kernels. We provide a
user-friendly parameter-free implementation of MMDAgg using an adaptive
collection of bandwidths. We demonstrate that MMDAgg significantly outperforms
alternative state-of-the-art MMD-based two-sample tests on synthetic data
satisfying the Sobolev smoothness assumption, and that, on real-world image
data, MMDAgg closely matches the power of tests leveraging the use of models
such as neural networks.
- Abstract(参考訳): 本稿では,MMD(Maximum Mean Discrepancy)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。
まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。
このテストは、非漸近的にタイプIエラーの確率を制御する。
したがって、適切なテストレベルを漸近的に保証する以前のMDDテストと異なり、十分に校正されているため、小さなサンプルサイズでも確実に使用することができる。
密度の差がソボレフ球に存在する場合、ソボレフ球の滑らかさパラメータに依存する特定の核を持つmmdテストの最小最適性が証明される。
実際には、このパラメータは未知であり、そのため、この特定のカーネルでの最適mmdテストは使用できない。
この問題を克服するために, MMDAgg と呼ばれるスムーズなパラメータに適応した集約テストを構築した。
テストパワーは、カーネル選択(テストパワーの喪失につながる)や中央値ヒューリスティックのような任意のカーネル選択を必要とせず、使用するカーネルのコレクションに対して最大化される。
MMDAggは相変わらず非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。
我々の保証は特定の種類のカーネルに限定されないが、一次元変換不変特性カーネルの任意の積を保持する。
適応的な帯域幅コレクションを用いたMMDAggのユーザフレンドリなパラメータフリー実装を提供する。
我々は,mmdaggがソボレフスムースネス仮定を満たす合成データに対して,最先端のmmdベースの2つのサンプルテストよりも有意に優れており,実世界の画像データでは,ニューラルネットワークなどのモデルを利用したテストのパワーと密接に一致することを実証する。
関連論文リスト
- Collaborative non-parametric two-sample testing [55.98760097296213]
目標は、null仮説の$p_v = q_v$が拒否されるノードを特定することである。
グラフ構造を効率的に活用する非パラメトリックコラボレーティブ2サンプルテスト(CTST)フレームワークを提案する。
提案手法は,f-divergence Estimation, Kernel Methods, Multitask Learningなどの要素を統合する。
論文 参考訳(メタデータ) (2024-02-08T14:43:56Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - A Permutation-free Kernel Two-Sample Test [36.50719125230106]
サンプル分割と学生化に基づく2次時間MDDテスト統計法を提案する。
大きなサンプルサイズの場合、我々の新しいクロスMMDはMDDよりも大幅にスピードアップし、わずかに電力を消費するだけである。
論文 参考訳(メタデータ) (2022-11-27T18:15:52Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - KSD Aggregated Goodness-of-fit Test [38.45086141837479]
我々は、異なるカーネルで複数のテストを集約するKSDAggと呼ばれるテストを構築する戦略を導入する。
我々は、KSDAggのパワーに関する漸近的でない保証を提供する。
KSDAggは、他の最先端のKSDベースの適合性試験方法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-02-02T00:33:09Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。