論文の概要: Kernel Two-Sample Tests for Manifold Data
- arxiv url: http://arxiv.org/abs/2105.03425v3
- Date: Sat, 25 Mar 2023 21:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 05:07:04.574013
- Title: Kernel Two-Sample Tests for Manifold Data
- Title(参考訳): 多様体データのカーネル2サンプルテスト
- Authors: Xiuyuan Cheng, Yao Xie
- Abstract要約: 本稿では, カーネル帯域幅, サンプル数, 多様体の内在的次元性に関して, テストレベルとパワーを特徴付ける。
この結果は,低次元多様体上あるいは近傍にデータを置く場合,カーネルの2サンプルテストは,次元の呪いを伴わないことを示す。
- 参考スコア(独自算出の注目度): 18.65765306736778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a study of a kernel-based two-sample test statistic related to the
Maximum Mean Discrepancy (MMD) in the manifold data setting, assuming that
high-dimensional observations are close to a low-dimensional manifold. We
characterize the test level and power in relation to the kernel bandwidth, the
number of samples, and the intrinsic dimensionality of the manifold.
Specifically, we show that when data densities are supported on a
$d$-dimensional sub-manifold $\mathcal{M}$ embedded in an $m$-dimensional
space, the kernel two-sample test for data sampled from a pair of distributions
$p$ and $q$ that are H\"older with order $\beta$ (up to 2) is powerful when the
number of samples $n$ is large such that $\Delta_2 \gtrsim n^{- { 2 \beta/( d +
4 \beta ) }}$, where $\Delta_2$ is the squared $L^2$-divergence between $p$ and
$q$ on manifold. We establish a lower bound on the test power for finite $n$
that is sufficiently large, where the kernel bandwidth parameter $\gamma$
scales as $n^{-1/(d+4\beta)}$. The analysis extends to cases where the manifold
has a boundary, and the data samples contain high-dimensional additive noise.
Our results indicate that the kernel two-sample test does not have a
curse-of-dimensionality when the data lie on or near a low-dimensional
manifold. We validate our theory and the properties of the kernel test for
manifold data through a series of numerical experiments.
- Abstract(参考訳): 本稿では,高次元の観測が低次元の多様体に近いことを前提として,最大平均離散性(MMD)に関連するカーネルベースの2サンプルテスト統計量について述べる。
本稿では, カーネル帯域幅, サンプル数, 多様体の内在的次元性に関して, テストレベルとパワーを特徴付ける。
具体的には、$m$-次元空間に埋め込まれた$d$-dimensional sub-manifold $\mathcal{m}$ でデータ密度がサポートされると、$p$ と $q$ のペアからサンプリングされたデータのカーネル2-サンプルテストが h\"older で$\beta$ (up to 2) のオーダーを持つ場合、$n$ のサンプル数が$\delta_2 \gtrsim n^{- { 2 \beta/(d + 4 \beta ) }}$であり、$\delta_2$ は多様体上の $p$ と $q$ の2乗 $l^2$-divergenceである。
十分に大きい有限$n$に対してテストパワーの低い境界を確立し、カーネル帯域幅パラメータ$\gamma$は$n^{-1/(d+4\beta)}$としてスケールする。
解析は多様体が境界を持つ場合にまで拡張され、データサンプルは高次元の付加雑音を含む。
この結果は,低次元多様体上あるいは近傍にデータを置く場合,カーネルの2サンプルテストは,次元の呪いを伴わないことを示す。
我々は, 数値実験により, 多様体データに対するカーネルテストの理論と特性を検証した。
関連論文リスト
- Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Kernel Density Estimators in Large Dimensions [9.299356601085586]
カーネルによる密度$hatrho_hmathcal D(x)=frac1n hdsum_i=1n Kleft(fracx-y_ihright)$の推定は帯域幅$h$に依存する。
本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。
論文 参考訳(メタデータ) (2024-08-11T15:56:44Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - The $L^\infty$ Learnability of Reproducing Kernel Hilbert Spaces [3.2931415075553576]
カーネル空間の学習可能性(RKHS)を$Linfty$ノルムで解析する。
球面上のドット積核に対しては、ヒルベルトサンプルを用いて$Linfty$学習が達成できる条件を特定する。
論文 参考訳(メタデータ) (2023-06-05T12:29:13Z) - A Manifold Two-Sample Test Study: Integral Probability Metric with
Neural Networks [46.62713126719579]
2サンプルテストは、2つの観測コレクションが同じ分布に従うかどうかを判断する重要な領域である。
低次元多様体上に支持された高次元試料に対する積分確率距離(IPM)に基づく2サンプル試験を提案する。
提案手法は,データ次元ではなく本質的な次元に大きく依存するため,低次元の幾何学的構造に適応する。
論文 参考訳(メタデータ) (2022-05-04T13:03:31Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Non-Parametric Estimation of Manifolds from Noisy Data [1.0152838128195467]
ノイズの多いサンプルの有限集合から$mathbbRD$の$d$次元部分多様体を推定する問題を検討する。
点推定では$n-frack2k + d$、接空間の推定では$n-frack-12k + d$の収束率を推定する。
論文 参考訳(メタデータ) (2021-05-11T02:29:33Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
汚染がない場合、事前の研究は、$O(d)$サンプルを使用するこの仮説テストタスクの単純なテスターを与えた。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Convergence of Graph Laplacian with kNN Self-tuned Kernels [14.645468999921961]
自己チューニングされたカーネルは、各点に$sigma_i$ を $k$-nearest neighbor (kNN) 距離で適応的に設定する。
本稿では、グラフラプラシアン作用素$L_N$を、kNN自己チューニングカーネルの新しい族に対する多様体(重み付き)ラプラシアンに収束することを証明する。
論文 参考訳(メタデータ) (2020-11-03T04:55:33Z) - How isotropic kernels perform on simple invariants [0.5729426778193397]
等方性カーネル手法のトレーニング曲線は、学習すべきタスクの対称性に依存するかを検討する。
大規模な帯域幅では、$beta = fracd-1+xi3d-3+xi$, where $xiin (0,2)$ がカーネルのストライプを原点とする指数であることを示す。
論文 参考訳(メタデータ) (2020-06-17T09:59:18Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。