論文の概要: Boosting the Power of Kernel Two-Sample Tests
- arxiv url: http://arxiv.org/abs/2302.10687v2
- Date: Thu, 5 Sep 2024 14:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 07:10:38.202593
- Title: Boosting the Power of Kernel Two-Sample Tests
- Title(参考訳): カーネル2サンプルテストのパワーアップ
- Authors: Anirban Chatterjee, Bhaswar B. Bhattacharya,
- Abstract要約: 最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
- 参考スコア(独自算出の注目度): 4.07125466598411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The kernel two-sample test based on the maximum mean discrepancy (MMD) is one of the most popular methods for detecting differences between two distributions over general metric spaces. In this paper we propose a method to boost the power of the kernel test by combining MMD estimates over multiple kernels using their Mahalanobis distance. We derive the asymptotic null distribution of the proposed test statistic and use a multiplier bootstrap approach to efficiently compute the rejection region. The resulting test is universally consistent and, since it is obtained by aggregating over a collection of kernels/bandwidths, is more powerful in detecting a wide range of alternatives in finite samples. We also derive the distribution of the test statistic for both fixed and local contiguous alternatives. The latter, in particular, implies that the proposed test is statistically efficient, that is, it has non-trivial asymptotic (Pitman) efficiency. The consistency properties of the Mahalanobis and other natural aggregation methods are also explored when the number of kernels is allowed to grow with the sample size. Extensive numerical experiments are performed on both synthetic and real-world datasets to illustrate the efficacy of the proposed method over single kernel tests. The computational complexity of the proposed method is also studied, both theoretically and in simulations. Our asymptotic results rely on deriving the joint distribution of MMD estimates using the framework of multiple stochastic integrals, which is more broadly useful, specifically, in understanding the efficiency properties of recently proposed adaptive MMD tests based on kernel aggregation and also in developing more computationally efficient (linear time) tests that combine multiple kernels. We conclude with an application of the Mahalanobis aggregation method for kernels with diverging scaling parameters.
- Abstract(参考訳): 最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
本稿では,マルチカーネル上でのMDD推定をマハラノビス距離を用いて組み合わせ,カーネルテストのパワー向上手法を提案する。
提案した試験統計量の漸近零分布を導出し, 乗算器ブートストラップ法を用いて拒絶領域を効率的に計算する。
結果として得られるテストは普遍的に一貫したものであり、カーネル/バンド幅の集まりに集約することで得られるので、有限サンプルにおいて幅広い代替品を検出するのにより強力である。
また, 定型および局所的連続した代替品の試験統計量の分布も導出する。
特に後者は、提案された試験が統計的に効率的であり、非自明な漸近性(ピットマン)効率を持つことを意味する。
マハラノビスや他の自然凝集法の整合性も、サンプルサイズで核の数が増加することを許すときにも検討される。
提案手法の有効性を示すために, 合成および実世界の両方のデータセットに対して, 大規模な数値実験を行った。
提案手法の計算複雑性も理論的にもシミュレーションにおいても研究されている。
我々の漸近的結果は、複数の確率積分の枠組みを用いてMDD推定の合同分布を導出することに依存しており、これはより広範に有用であり、特に、最近提案されたカーネル集約に基づく適応MDDテストの効率特性の理解や、複数のカーネルを組み合わせたより計算効率の良い(線形時間)テストの開発にも有効である。
本稿では,スケーリングパラメータのばらつきを考慮したカーネルに対するMahalanobisアグリゲーション手法の適用を結論とする。
関連論文リスト
- Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Efficient Numerical Integration in Reproducing Kernel Hilbert Spaces via
Leverage Scores Sampling [16.992480926905067]
本稿では,積分を対象確率測度に対して,積分の点的評価のみを用いて近似する問題を考察する。
本稿では,初期観測から得られる近似レバレッジスコアを用いて,$mn$サンプルのランダムな小部分集合を均一に描画するか,あるいは近似的に評価する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T17:44:18Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Efficient Aggregated Kernel Tests using Incomplete $U$-statistics [22.251118308736327]
提案した3つのテストは、複数のカーネル帯域に集約され、さまざまなスケールでnullからの離脱を検出する。
提案した線形時間集約テストは,現在最先端の線形時間カーネルテストよりも高い出力が得られることを示す。
論文 参考訳(メタデータ) (2022-06-18T12:30:06Z) - Kernel Two-Sample Tests in High Dimension: Interplay Between Moment Discrepancy and Dimension-and-Sample Orders [1.9303929635966661]
本研究では,カーネル2サンプル試験において,寸法と試料サイズが無限大に分散する場合の挙動について検討する。
我々は、ヌル仮説と局所的および固定的な選択肢の両方の下で中心極限定理(CLT)を確立する。
新たな非ヌルなCLT結果により,検出可能なモーメント差の微妙な相互作用が明らかとなる,正確な電力解析が可能となった。
論文 参考訳(メタデータ) (2021-12-31T23:12:44Z) - A Stochastic Newton Algorithm for Distributed Convex Optimization [62.20732134991661]
均質な分散凸最適化のためのNewtonアルゴリズムを解析し、各マシンが同じ人口目標の勾配を計算する。
提案手法は,既存の手法と比較して,性能を損なうことなく,必要な通信ラウンドの数,頻度を低減できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:51:10Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。