論文の概要: Kernel Two-Sample Tests in High Dimension: Interplay Between Moment
Discrepancy and Dimension-and-Sample Orders
- arxiv url: http://arxiv.org/abs/2201.00073v1
- Date: Fri, 31 Dec 2021 23:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 15:16:55.853402
- Title: Kernel Two-Sample Tests in High Dimension: Interplay Between Moment
Discrepancy and Dimension-and-Sample Orders
- Title(参考訳): 高次元のカーネル2つのサンプルテスト:モーメントの不一致と次元とサンプルの順序の相互作用
- Authors: Jian Yan, Xianyang Zhang
- Abstract要約: 本研究では,カーネル2サンプル試験において,寸法と試料サイズが無限大に分散する場合の挙動について検討する。
本研究は,近年の相互作用を補完し,高次元文献および大規模データに対するカーネル2サンプルテストの利用について新たな光を当てた。
- 参考スコア(独自算出の注目度): 1.104121146441257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the increasing use of kernel-based metrics for high-dimensional
and large-scale data, we study the asymptotic behavior of kernel two-sample
tests when the dimension and sample sizes both diverge to infinity. We focus on
the maximum mean discrepancy (MMD) with the kernel of the form
$k(x,y)=f(\|x-y\|_{2}^{2}/\gamma)$, including MMD with the Gaussian kernel and
the Laplacian kernel, and the energy distance as special cases. We derive
asymptotic expansions of the kernel two-sample statistics, based on which we
establish the central limit theorem (CLT) under both the null hypothesis and
the local and fixed alternatives. The new non-null CLT results allow us to
perform asymptotic exact power analysis, which reveals a delicate interplay
between the moment discrepancy that can be detected by the kernel two-sample
tests and the dimension-and-sample orders. The asymptotic theory is further
corroborated through numerical studies. Our findings complement those in the
recent literature and shed new light on the use of kernel two-sample tests for
high-dimensional and large-scale data.
- Abstract(参考訳): 高次元および大規模データに対するカーネルベースのメトリクスの利用の増加に動機付けられ,次元とサンプルサイズが無限大に分散する際のカーネル2サンプルテストの漸近挙動について検討した。
我々は、ガウス核とラプラシア核とのMDDを含む、$k(x,y)=f(\|x-y\|_{2}^{2}/\gamma)$という形の核を持つ最大平均誤差(MMD)と、特別な場合としてのエネルギー距離に焦点を当てる。
核の2サンプル統計学の漸近展開を導出し、そこではヌル仮説と局所的および固定的な選択肢の両方の下で中心極限定理(CLT)を確立する。
新たな非Null CLTの結果から,カーネルの2サンプルテストとディメンション・アンド・サンプルオーダによって検出されるモーメントの差分と,微妙な相互作用を示す漸近的正確なパワー解析が可能となった。
漸近理論は数値的研究によってさらに裏付けられる。
近年の文献を補完し,高次元および大規模データに対するカーネル2サンプルテストの利用について新たな光を当てた。
関連論文リスト
- Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - A High-dimensional Convergence Theorem for U-statistics with
Applications to Kernel-based Testing [3.469038201881982]
次数2のU-統計量に対して収束定理を証明し、データ次元$d$はサンプルサイズ$n$でスケールすることができる。
我々はこの理論を、高次元性能の研究が困難である2つのカーネルベースの分散テスト MMD と KSD に適用した。
論文 参考訳(メタデータ) (2023-02-11T12:49:46Z) - Targeted Separation and Convergence with Kernel Discrepancies [61.973643031360254]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - How do kernel-based sensor fusion algorithms behave under high
dimensional noise? [9.13755431537592]
我々は2つのカーネルベースセンサー融合アルゴリズムNCCAと交互拡散(AD)の挙動について検討する。
NCCAとADが正当性チェックなしでノイズの多い点群に直接適用されれば、科学者の解釈を誤解させる人工的な情報を生成する可能性がある。
一方、帯域幅が適切に選択された場合、SNRが比較的大きい場合、NCCAとADの両方を高次元雑音に対して堅牢にすることができる。
論文 参考訳(メタデータ) (2021-11-22T01:42:28Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Mean-Square Analysis with An Application to Optimal Dimension Dependence
of Langevin Monte Carlo [60.785586069299356]
この研究は、2-ワッサーシュタイン距離におけるサンプリング誤差の非同相解析のための一般的な枠組みを提供する。
我々の理論解析は数値実験によってさらに検証される。
論文 参考訳(メタデータ) (2021-09-08T18:00:05Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。