論文の概要: Kernel MMD Two-Sample Tests for Manifold Data
- arxiv url: http://arxiv.org/abs/2105.03425v1
- Date: Fri, 7 May 2021 17:56:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 12:22:11.562017
- Title: Kernel MMD Two-Sample Tests for Manifold Data
- Title(参考訳): 多様体データのカーネルmmd2サンプルテスト
- Authors: Xiuyuan Cheng, Yao Xie
- Abstract要約: 低次元多様体上にデータを置くと,カーネルMDDの2サンプルテストは,次元の呪いを伴わないことを示す。
本理論の妥当性と多様体データに対するmmdテストの特性をいくつかの数値実験を用いて実証する。
- 参考スコア(独自算出の注目度): 15.181152078304846
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a study of kernel MMD two-sample test statistics in the manifold
setting, assuming the high-dimensional observations are close to a
low-dimensional manifold. We characterize the property of the test (level and
power) in relation to the kernel bandwidth, the number of samples, and the
intrinsic dimensionality of the manifold. Specifically, we show that when data
densities are supported on a $d$-dimensional sub-manifold $\mathcal{M}$
embedded in an $m$-dimensional space, the kernel MMD two-sample test for data
sampled from a pair of distributions $(p, q)$ that are H\"older with order
$\beta$ is consistent and powerful when the number of samples $n$ is greater
than $\delta_2(p,q)^{-2-d/\beta}$ up to certain constant, where $\delta_2$ is
the squared $\ell_2$-divergence between two distributions on manifold.
Moreover, to achieve testing consistency under this scaling of $n$, our theory
suggests that the kernel bandwidth $\gamma$ scales with $n^{-1/(d+2\beta)}$.
These results indicate that the kernel MMD two-sample test does not have a
curse-of-dimensionality when the data lie on the low-dimensional manifold. We
demonstrate the validity of our theory and the property of the MMD test for
manifold data using several numerical experiments.
- Abstract(参考訳): 本稿では,高次元の観測値が低次元の多様体に近いことを前提として,カーネルMDDの2サンプル試験統計値について述べる。
テストの特性(レベルとパワー)は、カーネルの帯域幅、サンプルの数、および多様体の内在的な次元性に関連して特徴づける。
具体的には、$d$-dimensional sub-manifold $\mathcal{M}$ が $m$-dimensional 空間に埋め込まれたとき、カーネル MMD の2サンプルテストは、一対の分布からサンプリングされたデータに対して$(p, q)$ であり、その値が$\beta$ であるとき、$n$ が $\delta_2(p, q)^{-2-d/\beta}$ より大きい場合、$\delta_2$ は、多様体上の2つの分布の間の正方形 $\ell_2$-divergence である。
さらに、このスケールでテスト一貫性を達成するために、カーネル帯域幅$\gamma$ scales with $n^{-1/(d+2\beta)}$が提案される。
これらの結果から, カーネルMD2サンプル試験は, 低次元多様体上にデータを置くと, 擬似次元性を持たないことが示唆された。
本理論の妥当性と多様体データに対するmmdテストの特性をいくつかの数値実験を用いて実証する。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Kernel Density Estimators in Large Dimensions [9.299356601085586]
カーネルによる密度$hatrho_hmathcal D(x)=frac1n hdsum_i=1n Kleft(fracx-y_ihright)$の推定は帯域幅$h$に依存する。
本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。
論文 参考訳(メタデータ) (2024-08-11T15:56:44Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces [3.2931415075553576]
カーネル空間の学習可能性(RKHS)を$Linfty$ノルムで解析する。
球面上のドット積核に対しては、ヒルベルトサンプルを用いて$Linfty$学習が達成できる条件を特定する。
論文 参考訳(メタデータ) (2023-06-05T12:29:13Z) - A Manifold Two-Sample Test Study: Integral Probability Metric with
Neural Networks [46.62713126719579]
2サンプルテストは、2つの観測コレクションが同じ分布に従うかどうかを判断する重要な領域である。
低次元多様体上に支持された高次元試料に対する積分確率距離(IPM)に基づく2サンプル試験を提案する。
提案手法は,データ次元ではなく本質的な次元に大きく依存するため,低次元の幾何学的構造に適応する。
論文 参考訳(メタデータ) (2022-05-04T13:03:31Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Non-Parametric Estimation of Manifolds from Noisy Data [1.0152838128195467]
ノイズの多いサンプルの有限集合から$mathbbRD$の$d$次元部分多様体を推定する問題を検討する。
点推定では$n-frack2k + d$、接空間の推定では$n-frack-12k + d$の収束率を推定する。
論文 参考訳(メタデータ) (2021-05-11T02:29:33Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Convergence of Graph Laplacian with kNN Self-tuned Kernels [14.645468999921961]
自己チューニングされたカーネルは、各点に$sigma_i$ を $k$-nearest neighbor (kNN) 距離で適応的に設定する。
本稿では、グラフラプラシアン作用素$L_N$を、kNN自己チューニングカーネルの新しい族に対する多様体(重み付き)ラプラシアンに収束することを証明する。
論文 参考訳(メタデータ) (2020-11-03T04:55:33Z) - How isotropic kernels perform on simple invariants [0.5729426778193397]
等方性カーネル手法のトレーニング曲線は、学習すべきタスクの対称性に依存するかを検討する。
大規模な帯域幅では、$beta = fracd-1+xi3d-3+xi$, where $xiin (0,2)$ がカーネルのストライプを原点とする指数であることを示す。
論文 参考訳(メタデータ) (2020-06-17T09:59:18Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。