論文の概要: Kernel Two-Sample Tests in High Dimension: Interplay Between Moment
Discrepancy and Dimension-and-Sample Orders
- arxiv url: http://arxiv.org/abs/2201.00073v1
- Date: Fri, 31 Dec 2021 23:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 15:16:55.853402
- Title: Kernel Two-Sample Tests in High Dimension: Interplay Between Moment
Discrepancy and Dimension-and-Sample Orders
- Title(参考訳): 高次元のカーネル2つのサンプルテスト:モーメントの不一致と次元とサンプルの順序の相互作用
- Authors: Jian Yan, Xianyang Zhang
- Abstract要約: 本研究では,カーネル2サンプル試験において,寸法と試料サイズが無限大に分散する場合の挙動について検討する。
本研究は,近年の相互作用を補完し,高次元文献および大規模データに対するカーネル2サンプルテストの利用について新たな光を当てた。
- 参考スコア(独自算出の注目度): 1.104121146441257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the increasing use of kernel-based metrics for high-dimensional
and large-scale data, we study the asymptotic behavior of kernel two-sample
tests when the dimension and sample sizes both diverge to infinity. We focus on
the maximum mean discrepancy (MMD) with the kernel of the form
$k(x,y)=f(\|x-y\|_{2}^{2}/\gamma)$, including MMD with the Gaussian kernel and
the Laplacian kernel, and the energy distance as special cases. We derive
asymptotic expansions of the kernel two-sample statistics, based on which we
establish the central limit theorem (CLT) under both the null hypothesis and
the local and fixed alternatives. The new non-null CLT results allow us to
perform asymptotic exact power analysis, which reveals a delicate interplay
between the moment discrepancy that can be detected by the kernel two-sample
tests and the dimension-and-sample orders. The asymptotic theory is further
corroborated through numerical studies. Our findings complement those in the
recent literature and shed new light on the use of kernel two-sample tests for
high-dimensional and large-scale data.
- Abstract(参考訳): 高次元および大規模データに対するカーネルベースのメトリクスの利用の増加に動機付けられ,次元とサンプルサイズが無限大に分散する際のカーネル2サンプルテストの漸近挙動について検討した。
我々は、ガウス核とラプラシア核とのMDDを含む、$k(x,y)=f(\|x-y\|_{2}^{2}/\gamma)$という形の核を持つ最大平均誤差(MMD)と、特別な場合としてのエネルギー距離に焦点を当てる。
核の2サンプル統計学の漸近展開を導出し、そこではヌル仮説と局所的および固定的な選択肢の両方の下で中心極限定理(CLT)を確立する。
新たな非Null CLTの結果から,カーネルの2サンプルテストとディメンション・アンド・サンプルオーダによって検出されるモーメントの差分と,微妙な相互作用を示す漸近的正確なパワー解析が可能となった。
漸近理論は数値的研究によってさらに裏付けられる。
近年の文献を補完し,高次元および大規模データに対するカーネル2サンプルテストの利用について新たな光を当てた。
関連論文リスト
- MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Boosting the Power of Kernel Two-Sample Tests [7.1795069620810805]
マハラノビス距離を用いて、複数のカーネル上でMDD推定値を組み合わせることで、カーネルテストのパワーを高める方法を提案する。
結果として得られるテストは普遍的に一貫したものであり、カーネル/バンド幅の拒絶に対して集約することで得られるので、有限サンプルにおいて幅広い代替品を検出するのにより強力である。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - A High-dimensional Convergence Theorem for U-statistics with
Applications to Kernel-based Testing [3.469038201881982]
次数2のU-統計量に対して収束定理を証明し、データ次元$d$はサンプルサイズ$n$でスケールすることができる。
我々はこの理論を、高次元性能の研究が困難である2つのカーネルベースの分散テスト MMD と KSD に適用した。
論文 参考訳(メタデータ) (2023-02-11T12:49:46Z) - Targeted Separation and Convergence with Kernel Discrepancies [66.48817218787006]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - How do kernel-based sensor fusion algorithms behave under high
dimensional noise? [9.13755431537592]
我々は2つのカーネルベースセンサー融合アルゴリズムNCCAと交互拡散(AD)の挙動について検討する。
NCCAとADが正当性チェックなしでノイズの多い点群に直接適用されれば、科学者の解釈を誤解させる人工的な情報を生成する可能性がある。
一方、帯域幅が適切に選択された場合、SNRが比較的大きい場合、NCCAとADの両方を高次元雑音に対して堅牢にすることができる。
論文 参考訳(メタデータ) (2021-11-22T01:42:28Z) - MMD Aggregated Two-Sample Test [31.116276769013204]
平均最大離散性(MMD)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。
まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。
本研究では,この実験が非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。
論文 参考訳(メタデータ) (2021-10-28T12:47:49Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Isolation Distributional Kernel: A New Tool for Point & Group Anomaly
Detection [76.1522587605852]
分離分散カーネル(IDK)は2つの分布の類似性を測定する新しい方法である。
我々は、カーネルベースの異常検出のための新しいツールとして、IDKの有効性と効率を示す。
論文 参考訳(メタデータ) (2020-09-24T12:25:43Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。