論文の概要: Spectral Regularized Kernel Two-Sample Tests
- arxiv url: http://arxiv.org/abs/2212.09201v3
- Date: Wed, 1 May 2024 20:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 22:49:30.993004
- Title: Spectral Regularized Kernel Two-Sample Tests
- Title(参考訳): スペクトル正則化カーネル2サンプル試験
- Authors: Omar Hagrass, Bharath K. Sriperumbudur, Bing Li,
- Abstract要約: MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
- 参考スコア(独自算出の注目度): 7.915420897195129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last decade, an approach that has gained a lot of popularity to tackle nonparametric testing problems on general (i.e., non-Euclidean) domains is based on the notion of reproducing kernel Hilbert space (RKHS) embedding of probability distributions. The main goal of our work is to understand the optimality of two-sample tests constructed based on this approach. First, we show the popular MMD (maximum mean discrepancy) two-sample test to be not optimal in terms of the separation boundary measured in Hellinger distance. Second, we propose a modification to the MMD test based on spectral regularization by taking into account the covariance information (which is not captured by the MMD test) and prove the proposed test to be minimax optimal with a smaller separation boundary than that achieved by the MMD test. Third, we propose an adaptive version of the above test which involves a data-driven strategy to choose the regularization parameter and show the adaptive test to be almost minimax optimal up to a logarithmic factor. Moreover, our results hold for the permutation variant of the test where the test threshold is chosen elegantly through the permutation of the samples. Through numerical experiments on synthetic and real data, we demonstrate the superior performance of the proposed test in comparison to the MMD test and other popular tests in the literature.
- Abstract(参考訳): 過去10年間で、一般(すなわち非ユークリッド領域)における非パラメトリックテスト問題に取り組むために多くの人気を得たアプローチは、確率分布を埋め込むカーネルヒルベルト空間(RKHS)の再生の概念に基づいている。
私たちの研究の主な目的は、このアプローチに基づいて構築された2サンプルテストの最適性を理解することです。
まず,Helinger 距離で測定された分離境界の点から,MMD (maximum mean discrepancy) の2サンプル試験が最適でないことを示す。
第2に, スペクトル正則化に基づくMDDテストの修正を提案し, 共分散情報(MDDテストでは捕捉されない)を考慮し, MMDテストよりも分離境界が小さく, 最適であることを示す。
第3に、正規化パラメータを選択し、適応テストが対数係数までほぼ極小であることを示すためのデータ駆動型戦略を含む、上記のテストの適応バージョンを提案する。
さらに, テストしきい値がエレガントに選択されるテストの置換変種について, サンプルの置換により検討した。
合成および実データに関する数値実験を通じて,本論文におけるMDD試験および他の一般的な試験と比較して,提案試験の優れた性能を示す。
関連論文リスト
- Minimax Optimal Goodness-of-Fit Testing with Kernel Stein Discrepancy [13.429541377715298]
我々は、カーネル化されたStein discrepancy (KSD) を用いた一般領域における適合性試験の極小最適性について検討する。
KSDフレームワークは、優れたテストのための柔軟なアプローチを提供し、強い分散仮定を避けます。
未知のパラメータに適応することで、対数係数まで最小限の最適性を達成できる適応テストを導入する。
論文 参考訳(メタデータ) (2024-04-12T07:06:12Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - MMD-FUSE: Learning and Combining Kernels for Two-Sample Testing Without
Data Splitting [28.59390881834003]
最大平均離散性(MMD)に基づく2サンプルテストのパワーを最大化する新しい統計法を提案する。
これらのカーネルは、データ分割を避けるために、よく校正されたテストで、データ依存だが置換に依存しない方法でどのように選択できるかを示す。
我々は,合成低次元および実世界の高次元データに対するMDD-FUSEテストの適用性を強調し,その性能を現状のカーネルテストと比較した。
論文 参考訳(メタデータ) (2023-06-14T23:13:03Z) - Variable Selection for Kernel Two-Sample Tests [10.768155884359777]
カーネルの最大平均誤差(MMD)に基づくフレームワークを提案する。
我々は混合整数型プログラミングの定式化を提案し、性能保証付き精度および近似アルゴリズムを開発した。
合成および実データを用いた実験結果から,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-15T00:39:56Z) - Targeted Separation and Convergence with Kernel Discrepancies [61.973643031360254]
カーネルベースの不一致測度は、(i)ターゲットPを他の確率測度から分離するか、(ii)Pへの弱収束を制御する必要がある。
本稿では, (i) と (ii) を保証するのに十分な,必要な新しい条件を導出する。
可分距離空間上のMDDに対して、ボヒナー埋め込み可測度を分離するカーネルを特徴づけ、すべての測度を非有界カーネルと分離するための単純な条件を導入する。
論文 参考訳(メタデータ) (2022-09-26T16:41:16Z) - Sequential Permutation Testing of Random Forest Variable Importance
Measures [68.8204255655161]
そこで本研究では、逐次置換テストと逐次p値推定を用いて、従来の置換テストに関連する高い計算コストを削減することを提案する。
シミュレーション研究の結果、シーケンシャルテストの理論的性質が当てはまることを確認した。
本手法の数値安定性を2つの応用研究で検討した。
論文 参考訳(メタデータ) (2022-06-02T20:16:50Z) - MMD Aggregated Two-Sample Test [31.116276769013204]
平均最大離散性(MMD)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。
まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。
本研究では,この実験が非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。
論文 参考訳(メタデータ) (2021-10-28T12:47:49Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Learning Kernel Tests Without Data Splitting [18.603394415852765]
データ分割なしにハイパーパラメータの学習と全サンプルでのテストを可能にするアプローチを提案する。
我々のアプローチの試験能力は、その分割割合に関係なく、データ分割アプローチよりも経験的に大きい。
論文 参考訳(メタデータ) (2020-06-03T14:07:39Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。