論文の概要: Boosting the Power of Kernel Two-Sample Tests
- arxiv url: http://arxiv.org/abs/2302.10687v1
- Date: Tue, 21 Feb 2023 14:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:52:44.191342
- Title: Boosting the Power of Kernel Two-Sample Tests
- Title(参考訳): カーネル2サンプルテストのパワー向上
- Authors: Anirban Chatterjee, Bhaswar B. Bhattacharya
- Abstract要約: マハラノビス距離を用いて、複数のカーネル上でMDD推定値を組み合わせることで、カーネルテストのパワーを高める方法を提案する。
結果として得られるテストは普遍的に一貫したものであり、カーネル/バンド幅の拒絶に対して集約することで得られるので、有限サンプルにおいて幅広い代替品を検出するのにより強力である。
- 参考スコア(独自算出の注目度): 7.1795069620810805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The kernel two-sample test based on the maximum mean discrepancy (MMD) is one
of the most popular methods for detecting differences between two distributions
over general metric spaces. In this paper we propose a method to boost the
power of the kernel test by combining MMD estimates over multiple kernels using
their Mahalanobis distance. We derive the asymptotic null distribution of the
proposed test statistic and use a multiplier bootstrap approach to efficiently
compute the rejection region. The resulting test is universally consistent and,
since it is obtained by aggregating over a collection of kernels/bandwidths, is
more powerful in detecting a wide range of alternatives in finite samples. We
also derive the distribution of the test statistic for both fixed and local
contiguous alternatives. The latter, in particular, implies that the proposed
test is statistically efficient, that is, it has non-trivial asymptotic
(Pitman) efficiency. Extensive numerical experiments are performed on both
synthetic and real-world datasets to illustrate the efficacy of the proposed
method over single kernel tests. Our asymptotic results rely on deriving the
joint distribution of MMD estimates using the framework of multiple stochastic
integrals, which is more broadly useful, specifically, in understanding the
efficiency properties of recently proposed adaptive MMD tests based on kernel
aggregation.
- Abstract(参考訳): 最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
本稿では,マルチカーネル上でのmmd推定をマハラノビス距離を用いて組み合わせることで,カーネルテストのパワーを高める手法を提案する。
提案するテスト統計の漸近的ヌル分布を導出し,再帰領域を効率的に計算するために乗算ブートストラップ法を用いる。
結果として得られるテストは普遍的に一貫性があり、カーネル/バンド幅の集合を集約することで得られるため、有限サンプルの幅広い選択肢を検出するのにより強力である。
また,固定および局所連続した選択肢に対するテスト統計の分布も導出する。
特に後者は、提案されたテストが統計的に効率的、すなわち非自明な漸近的(ピットマン)効率であることを示している。
提案手法の有効性を示すために, 合成および実世界の両方のデータセットで大規模な数値実験を行った。
我々の漸近的結果は、複数の確率積分の枠組みを用いてMDD推定の関節分布を導出することに依存しており、これはより広範に有用であり、特に、最近提案されたカーネル集約に基づく適応MDDテストの効率性を理解するのに有用である。
関連論文リスト
- An Efficient Permutation-Based Kernel Two-Sample Test [12.331562761756679]
2サンプル仮説テストは統計学と機械学習の基本的な問題である。
本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-02-19T09:22:48Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Efficient Aggregated Kernel Tests using Incomplete $U$-statistics [22.251118308736327]
提案した3つのテストは、複数のカーネル帯域に集約され、さまざまなスケールでnullからの離脱を検出する。
提案した線形時間集約テストは,現在最先端の線形時間カーネルテストよりも高い出力が得られることを示す。
論文 参考訳(メタデータ) (2022-06-18T12:30:06Z) - Kernel Two-Sample Tests in High Dimension: Interplay Between Moment Discrepancy and Dimension-and-Sample Orders [1.9303929635966661]
本研究では,カーネル2サンプル試験において,寸法と試料サイズが無限大に分散する場合の挙動について検討する。
我々は、ヌル仮説と局所的および固定的な選択肢の両方の下で中心極限定理(CLT)を確立する。
新たな非ヌルなCLT結果により,検出可能なモーメント差の微妙な相互作用が明らかとなる,正確な電力解析が可能となった。
論文 参考訳(メタデータ) (2021-12-31T23:12:44Z) - A Stochastic Newton Algorithm for Distributed Convex Optimization [62.20732134991661]
均質な分散凸最適化のためのNewtonアルゴリズムを解析し、各マシンが同じ人口目標の勾配を計算する。
提案手法は,既存の手法と比較して,性能を損なうことなく,必要な通信ラウンドの数,頻度を低減できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:51:10Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。