論文の概要: Accelerated Computation of a High Dimensional Kolmogorov-Smirnov
Distance
- arxiv url: http://arxiv.org/abs/2106.13706v1
- Date: Fri, 25 Jun 2021 15:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:56:54.173140
- Title: Accelerated Computation of a High Dimensional Kolmogorov-Smirnov
Distance
- Title(参考訳): 高次元コルモゴロフ-スミルノフ距離の加速計算
- Authors: Alex Hagen, Shane Jackson, James Kahn, Jan Strube, Isabel Haide, Karl
Pazdernik, Connor Hainje
- Abstract要約: 我々は強力なコルモゴロフ・スミルノフの2つの試料実験を高次元に拡張する。
D次元コルモゴロフ・スミルノフ検定(d-dimensional Kolmogorov-Smirnov test,ddKS)と呼ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical testing is widespread and critical for a variety of scientific
disciplines. The advent of machine learning and the increase of computing power
has increased the interest in the analysis and statistical testing of
multidimensional data. We extend the powerful Kolmogorov-Smirnov two sample
test to a high dimensional form in a similar manner to Fasano (Fasano, 1987).
We call our result the d-dimensional Kolmogorov-Smirnov test (ddKS) and provide
three novel contributions therewith: we develop an analytical equation for the
significance of a given ddKS score, we provide an algorithm for computation of
ddKS on modern computing hardware that is of constant time complexity for small
sample sizes and dimensions, and we provide two approximate calculations of
ddKS: one that reduces the time complexity to linear at larger sample sizes,
and another that reduces the time complexity to linear with increasing
dimension. We perform power analysis of ddKS and its approximations on a corpus
of datasets and compare to other common high dimensional two sample tests and
distances: Hotelling's T^2 test and Kullback-Leibler divergence. Our ddKS test
performs well for all datasets, dimensions, and sizes tested, whereas the other
tests and distances fail to reject the null hypothesis on at least one dataset.
We therefore conclude that ddKS is a powerful multidimensional two sample test
for general use, and can be calculated in a fast and efficient manner using our
parallel or approximate methods. Open source implementations of all methods
described in this work are located at https://github.com/pnnl/ddks.
- Abstract(参考訳): 統計検査は、様々な科学分野において広く、重要である。
機械学習の出現と計算能力の増大により、多次元データの分析と統計的テストへの関心が高まっている。
強力なコルモゴロフ・スミルノフの2つの標本試験をファサーノ(fasano, 1987)と同様の高次元形式に拡張する。
We call our result the d-dimensional Kolmogorov-Smirnov test (ddKS) and provide three novel contributions therewith: we develop an analytical equation for the significance of a given ddKS score, we provide an algorithm for computation of ddKS on modern computing hardware that is of constant time complexity for small sample sizes and dimensions, and we provide two approximate calculations of ddKS: one that reduces the time complexity to linear at larger sample sizes, and another that reduces the time complexity to linear with increasing dimension.
我々は、ddKSとその近似をデータセットのコーパス上でパワー分析し、HotellingのT^2テストとKullback-Leiblerの分岐といった、他の一般的な高次元の2つのサンプルテストと距離と比較する。
私たちのddkテストは、テストされたすべてのデータセット、寸法、サイズでうまく動作しますが、他のテストと距離は、少なくとも1つのデータセットのヌル仮説を拒否できません。
したがって,ddkは汎用的な多次元2試料テストであり,並列近似法や近似法を用いて高速かつ効率的な計算が可能である。
本研究で説明したすべてのメソッドのオープンソース実装はhttps://github.com/pnnl/ddks.comにある。
関連論文リスト
- Learning Multi-Index Models with Neural Networks via Mean-Field Langevin Dynamics [21.55547541297847]
平均場ランゲヴィンアルゴリズムを用いて学習した2層ニューラルネットワークを用いて,高次元のマルチインデックスモデルを学習する問題について検討する。
軽度の分布仮定の下では、サンプルと計算の複雑さの両方を制御する実効次元 $d_mathrmeff$ を特徴づける。
論文 参考訳(メタデータ) (2024-08-14T02:13:35Z) - Efficient Quantum One-Class Support Vector Machines for Anomaly Detection Using Randomized Measurements and Variable Subsampling [5.23043157509344]
量子一級サポートベクトルマシンは、半教師付き異常検出における量子カーネル法の利点を利用する。
量子ランダム化計測カーネルと可変サブサンプリングが、この問題に対処するための2つの独立した方法として提案された。
現在の作業では、データサイズと機能数の両方で線形時間複雑性を達成するために、これらの2つのメソッドと、回転した機能バッジを組み合わせることに重点を置いている。
論文 参考訳(メタデータ) (2024-07-30T11:55:52Z) - Computational-Statistical Trade-off in Kernel Two-Sample Testing with Random Fourier Features [3.744589644319257]
MMD(Maximum Mean Discrepancy)テストは、複雑で高次元のデータを扱う効果的なツールとして登場した。
MMD試験と同じ出力保証を準4次時間で達成できるかどうかは不明だ。
準4次時間内にMDD試験と同じミニマックス分離率が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T04:08:01Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Boosting the Power of Kernel Two-Sample Tests [4.07125466598411]
最大平均誤差(MMD)に基づくカーネル2サンプルテストは、一般的な距離空間上の2つの分布の違いを検出する最も一般的な方法の1つである。
マハラノビス距離を用いて,複数のカーネル上でMDD推定値を組み合わせることで,カーネルテストのパワーを高める手法を提案する。
論文 参考訳(メタデータ) (2023-02-21T14:14:30Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Efficient Aggregated Kernel Tests using Incomplete $U$-statistics [22.251118308736327]
提案した3つのテストは、複数のカーネル帯域に集約され、さまざまなスケールでnullからの離脱を検出する。
提案した線形時間集約テストは,現在最先端の線形時間カーネルテストよりも高い出力が得られることを示す。
論文 参考訳(メタデータ) (2022-06-18T12:30:06Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector
Problems [78.95866278697777]
本研究では,多元的固有ベクトルを分散制約で同時に計算するTruncated Orthogonal Iterationの2つの変種を提案する。
次に,我々のアルゴリズムを適用して,幅広いテストデータセットに対するスパース原理成分分析問題を解く。
論文 参考訳(メタデータ) (2021-03-24T23:11:32Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Stochastic Approximation for Online Tensorial Independent Component
Analysis [98.34292831923335]
独立成分分析(ICA)は統計機械学習や信号処理において一般的な次元削減ツールである。
本稿では,各独立成分を推定する副産物オンライン時系列アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T18:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。