論文の概要: An Efficient Permutation-Based Kernel Two-Sample Test
- arxiv url: http://arxiv.org/abs/2502.13570v2
- Date: Thu, 20 Mar 2025 14:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:52.002432
- Title: An Efficient Permutation-Based Kernel Two-Sample Test
- Title(参考訳): 効率的な置換に基づくカーネル2サンプルテスト
- Authors: Antoine Chatalic, Marco Letizia, Nicolas Schreuder, Lorenzo Rosasco,
- Abstract要約: 2サンプル仮説テストは統計学と機械学習の基本的な問題である。
本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 13.229867216847534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two-sample hypothesis testing-determining whether two sets of data are drawn from the same distribution-is a fundamental problem in statistics and machine learning with broad scientific applications. In the context of nonparametric testing, maximum mean discrepancy (MMD) has gained popularity as a test statistic due to its flexibility and strong theoretical foundations. However, its use in large-scale scenarios is plagued by high computational costs. In this work, we use a Nystr\"om approximation of the MMD to design a computationally efficient and practical testing algorithm while preserving statistical guarantees. Our main result is a finite-sample bound on the power of the proposed test for distributions that are sufficiently separated with respect to the MMD. The derived separation rate matches the known minimax optimal rate in this setting. We support our findings with a series of numerical experiments, emphasizing realistic scientific data.
- Abstract(参考訳): 2サンプルの仮説テスト-同じ分布から2つのデータセットが引き出されるかどうかを決定することは、幅広い科学的応用を伴う統計学と機械学習の基本的な問題である。
非パラメトリックテストの文脈では、最大平均誤差(MMD)は、その柔軟性と強力な理論的基礎からテスト統計として人気を集めている。
しかし、大規模なシナリオでの利用は、高い計算コストに悩まされている。
本研究では,統計的保証を保ちながら,計算効率よく実用的なテストアルゴリズムを設計するために,MDDのNystr\"om近似を用いる。
我々の主な結果は、MDDに対して十分に分離された分布に対する提案されたテストのパワーに束縛された有限サンプルである。
導出された分離速度は、この設定における既知のミニマックス最適速度と一致する。
我々は、現実的な科学的データを強調する一連の数値実験で、我々の研究結果を支持している。
関連論文リスト
- Minimax Optimal Kernel Two-Sample Tests with Random Features [8.030917052755195]
ランダムフーリエ特徴量(RFF)近似に基づくスペクトル正規化2サンプル試験を提案する。
RFFの近似順序が十分に大きい場合、提案した試験が最小限最適であることを示す。
そこで本研究では,正規化パラメータとカーネルを選択するためのデータ適応型戦略を用いて,提案したテストの実用的実装可能な置換型バージョンを開発する。
論文 参考訳(メタデータ) (2025-02-28T06:12:00Z) - Computational-Statistical Trade-off in Kernel Two-Sample Testing with Random Fourier Features [3.744589644319257]
MMD(Maximum Mean Discrepancy)テストは、複雑で高次元のデータを扱う効果的なツールとして登場した。
MMD試験と同じ出力保証を準4次時間で達成できるかどうかは不明だ。
準4次時間内にMDD試験と同じミニマックス分離率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T04:08:01Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Importance sampling for stochastic quantum simulations [68.8204255655161]
我々は、係数に応じてハミルトン式からサンプリングしてランダムな積公式を構築するqDriftプロトコルを導入する。
サンプリング段階における個別のシミュレーションコストを考慮し、同じ精度でシミュレーションコストを削減可能であることを示す。
格子核効果場理論を用いて数値シミュレーションを行った結果, 実験結果が得られた。
論文 参考訳(メタデータ) (2022-12-12T15:06:32Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Sequential Permutation Testing of Random Forest Variable Importance
Measures [68.8204255655161]
そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
論文 参考訳(メタデータ) (2022-06-02T20:16:50Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Maximum Mean Discrepancy Test is Aware of Adversarial Attacks [122.51040127438324]
最大平均誤差(MMD)テストは、原則として2つのデータセット間の分布誤差を検出できる。
MMD検査は敵の攻撃に気づいていないことが示されている。
論文 参考訳(メタデータ) (2020-10-22T03:42:12Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。