論文の概要: Minimax Optimal Kernel Two-Sample Tests with Random Features
- arxiv url: http://arxiv.org/abs/2502.20755v1
- Date: Fri, 28 Feb 2025 06:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:09.567653
- Title: Minimax Optimal Kernel Two-Sample Tests with Random Features
- Title(参考訳): ランダム特徴を持つ極小カーネル2サンプル試験
- Authors: Soumya Mukherjee, Bharath K. Sriperumbudur,
- Abstract要約: ランダムフーリエ特徴量(RFF)近似に基づくスペクトル正規化2サンプル試験を提案する。
RFFの近似順序が十分に大きい場合、提案した試験が最小限最適であることを示す。
そこで本研究では,正規化パラメータとカーネルを選択するためのデータ適応型戦略を用いて,提案したテストの実用的実装可能な置換型バージョンを開発する。
- 参考スコア(独自算出の注目度): 8.030917052755195
- License:
- Abstract: Reproducing Kernel Hilbert Space (RKHS) embedding of probability distributions has proved to be an effective approach, via MMD (maximum mean discrepancy) for nonparametric hypothesis testing problems involving distributions defined over general (non-Euclidean) domains. While a substantial amount of work has been done on this topic, only recently, minimax optimal two-sample tests have been constructed that incorporate, unlike MMD, both the mean element and a regularized version of the covariance operator. However, as with most kernel algorithms, the computational complexity of the optimal test scales cubically in the sample size, limiting its applicability. In this paper, we propose a spectral regularized two-sample test based on random Fourier feature (RFF) approximation and investigate the trade-offs between statistical optimality and computational efficiency. We show the proposed test to be minimax optimal if the approximation order of RFF (which depends on the smoothness of the likelihood ratio and the decay rate of the eigenvalues of the integral operator) is sufficiently large. We develop a practically implementable permutation-based version of the proposed test with a data-adaptive strategy for selecting the regularization parameter and the kernel. Finally, through numerical experiments on simulated and benchmark datasets, we demonstrate that the proposed RFF-based test is computationally efficient and performs almost similar (with a small drop in power) to the exact test.
- Abstract(参考訳): 確率分布のKernel Hilbert Space (RKHS) 埋め込みを再現することは、一般(非ユークリッド)領域上で定義された分布を含む非パラメトリック仮説テスト問題に対してMDD(maximum mean discrepancy)を介して効果的にアプローチできることが証明された。
この問題に関してかなりの量の作業が行われたが、最近になって、MDDとは異なり、平均要素と共分散作用素の正規化バージョンの両方を組み込んだミニマックス最適2サンプルテストが構築された。
しかし、ほとんどのカーネルアルゴリズムと同様に、最適なテストの計算複雑性はサンプルサイズで3倍にスケールし、適用性を制限する。
本稿では、ランダムフーリエ特徴量(RFF)近似に基づくスペクトル正則化2サンプル試験を提案し、統計的最適性と計算効率のトレードオフについて検討する。
RFFの近似順序(積分作用素の固有値の滑らかさと減衰率に依存する)が十分大きい場合、提案した試験が最小限最適であることを示す。
そこで本研究では,正規化パラメータとカーネルを選択するためのデータ適応型戦略を用いて,提案したテストの実用的実装可能な置換型バージョンを開発する。
最後に、シミュレーションおよびベンチマークデータセットに関する数値実験により、提案したRFFベースのテストは計算効率が良く、正確なテストとほぼ同様な性能(電力の低下)を示す。
関連論文リスト
- An Efficient Permutation-Based Kernel Two-Sample Test [12.331562761756679]
2サンプル仮説テストは統計学と機械学習の基本的な問題である。
本研究では,最大平均誤差(MMD)のNystr "om approxation"を用いて,計算効率よく実用的なテストアルゴリズムを設計する。
論文 参考訳(メタデータ) (2025-02-19T09:22:48Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Doubly Robust Conditional Independence Testing with Generative Neural Networks [8.323172773256449]
本稿では、第3の確率ベクトル$Z$を与えられた2つのジェネリックランダムベクトル$X$と$Y$の条件独立性をテストする問題に対処する。
条件分布を明示的に推定しない新しい非パラメトリック試験法を提案する。
論文 参考訳(メタデータ) (2024-07-25T01:28:59Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Spectral Regularized Kernel Two-Sample Tests [7.915420897195129]
MMD (maximum mean discrepancy) two-sample test to be optimal to the terms of the separation boundary in the Hellinger distance。
スペクトル正則化に基づくMDD試験の修正を提案し,MMD試験よりも分離境界が小さく,最小限の試験が最適であることを証明した。
その結果,テストしきい値がエレガントに選択されるテストの置換変種が,サンプルの置換によって決定されることがわかった。
論文 参考訳(メタデータ) (2022-12-19T00:42:21Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - MMD Aggregated Two-Sample Test [31.116276769013204]
平均最大離散性(MMD)に基づく2つの新しい非パラメトリック2サンプルカーネルテストを提案する。
まず、固定化されたカーネルに対して、置換またはワイルドブートストラップを用いてMDDテストを構築し、テストしきい値を決定するために2つの一般的な数値処理を行う。
本研究では,この実験が非漸近的にレベルを制御し,反復対数項までソボレフ球の最小値を達成することを証明した。
論文 参考訳(メタデータ) (2021-10-28T12:47:49Z) - Distributed Averaging Methods for Randomized Second Order Optimization [54.51566432934556]
我々はヘッセン語の形成が計算的に困難であり、通信がボトルネックとなる分散最適化問題を考察する。
我々は、ヘッセンのサンプリングとスケッチを用いたランダム化二階最適化のための非バイアスパラメータ平均化手法を開発した。
また、不均一なコンピューティングシステムのための非バイアス分散最適化フレームワークを導入するために、二階平均化手法のフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-02-16T09:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。