論文の概要: Accelerated Computation of a High Dimensional Kolmogorov-Smirnov
Distance
- arxiv url: http://arxiv.org/abs/2106.13706v1
- Date: Fri, 25 Jun 2021 15:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:56:54.173140
- Title: Accelerated Computation of a High Dimensional Kolmogorov-Smirnov
Distance
- Title(参考訳): 高次元コルモゴロフ-スミルノフ距離の加速計算
- Authors: Alex Hagen, Shane Jackson, James Kahn, Jan Strube, Isabel Haide, Karl
Pazdernik, Connor Hainje
- Abstract要約: 我々は強力なコルモゴロフ・スミルノフの2つの試料実験を高次元に拡張する。
D次元コルモゴロフ・スミルノフ検定(d-dimensional Kolmogorov-Smirnov test,ddKS)と呼ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical testing is widespread and critical for a variety of scientific
disciplines. The advent of machine learning and the increase of computing power
has increased the interest in the analysis and statistical testing of
multidimensional data. We extend the powerful Kolmogorov-Smirnov two sample
test to a high dimensional form in a similar manner to Fasano (Fasano, 1987).
We call our result the d-dimensional Kolmogorov-Smirnov test (ddKS) and provide
three novel contributions therewith: we develop an analytical equation for the
significance of a given ddKS score, we provide an algorithm for computation of
ddKS on modern computing hardware that is of constant time complexity for small
sample sizes and dimensions, and we provide two approximate calculations of
ddKS: one that reduces the time complexity to linear at larger sample sizes,
and another that reduces the time complexity to linear with increasing
dimension. We perform power analysis of ddKS and its approximations on a corpus
of datasets and compare to other common high dimensional two sample tests and
distances: Hotelling's T^2 test and Kullback-Leibler divergence. Our ddKS test
performs well for all datasets, dimensions, and sizes tested, whereas the other
tests and distances fail to reject the null hypothesis on at least one dataset.
We therefore conclude that ddKS is a powerful multidimensional two sample test
for general use, and can be calculated in a fast and efficient manner using our
parallel or approximate methods. Open source implementations of all methods
described in this work are located at https://github.com/pnnl/ddks.
- Abstract(参考訳): 統計検査は、様々な科学分野において広く、重要である。
機械学習の出現と計算能力の増大により、多次元データの分析と統計的テストへの関心が高まっている。
強力なコルモゴロフ・スミルノフの2つの標本試験をファサーノ(fasano, 1987)と同様の高次元形式に拡張する。
We call our result the d-dimensional Kolmogorov-Smirnov test (ddKS) and provide three novel contributions therewith: we develop an analytical equation for the significance of a given ddKS score, we provide an algorithm for computation of ddKS on modern computing hardware that is of constant time complexity for small sample sizes and dimensions, and we provide two approximate calculations of ddKS: one that reduces the time complexity to linear at larger sample sizes, and another that reduces the time complexity to linear with increasing dimension.
我々は、ddKSとその近似をデータセットのコーパス上でパワー分析し、HotellingのT^2テストとKullback-Leiblerの分岐といった、他の一般的な高次元の2つのサンプルテストと距離と比較する。
私たちのddkテストは、テストされたすべてのデータセット、寸法、サイズでうまく動作しますが、他のテストと距離は、少なくとも1つのデータセットのヌル仮説を拒否できません。
したがって,ddkは汎用的な多次元2試料テストであり,並列近似法や近似法を用いて高速かつ効率的な計算が可能である。
本研究で説明したすべてのメソッドのオープンソース実装はhttps://github.com/pnnl/ddks.comにある。
関連論文リスト
- Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Generative modeling of time-dependent densities via optimal transport
and projection pursuit [3.069335774032178]
本稿では,時間的モデリングのための一般的なディープラーニングアルゴリズムの代替として,安価に提案する。
我々の手法は最先端の解法と比較して非常に競争力がある。
論文 参考訳(メタデータ) (2023-04-19T13:50:13Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Statistical, Robustness, and Computational Guarantees for Sliced
Wasserstein Distances [18.9717974398864]
スライスされたワッサーシュタイン距離は古典的なワッサーシュタイン距離の性質を保ちながら、高次元での計算と推定によりスケーラブルである。
このスケーラビリティを, (i) 経験的収束率, (ii) データの汚染に対する堅牢性, (iii) 効率的な計算方法という3つの重要な側面から定量化する。
論文 参考訳(メタデータ) (2022-10-17T15:04:51Z) - Efficient Aggregated Kernel Tests using Incomplete $U$-statistics [22.251118308736327]
提案した3つのテストは、複数のカーネル帯域に集約され、さまざまなスケールでnullからの離脱を検出する。
提案した線形時間集約テストは,現在最先端の線形時間カーネルテストよりも高い出力が得られることを示す。
論文 参考訳(メタデータ) (2022-06-18T12:30:06Z) - Kernel Two-Sample Tests in High Dimension: Interplay Between Moment
Discrepancy and Dimension-and-Sample Orders [1.104121146441257]
本研究では,カーネル2サンプル試験において,寸法と試料サイズが無限大に分散する場合の挙動について検討する。
本研究は,近年の相互作用を補完し,高次元文献および大規模データに対するカーネル2サンプルテストの利用について新たな光を当てた。
論文 参考訳(メタデータ) (2021-12-31T23:12:44Z) - A Fast Parallel Tensor Decomposition with Optimal Stochastic Gradient
Descent: an Application in Structural Damage Identification [1.536989504296526]
本稿では, CANDECOMP/PARAFAC (CP) 分解を mathbbR I_1 times dots times I_N $ で並列化する新しいアルゴリズム FP-CPD を提案する。
論文 参考訳(メタデータ) (2021-11-04T05:17:07Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector
Problems [78.95866278697777]
本研究では,多元的固有ベクトルを分散制約で同時に計算するTruncated Orthogonal Iterationの2つの変種を提案する。
次に,我々のアルゴリズムを適用して,幅広いテストデータセットに対するスパース原理成分分析問題を解く。
論文 参考訳(メタデータ) (2021-03-24T23:11:32Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Stochastic Approximation for Online Tensorial Independent Component
Analysis [98.34292831923335]
独立成分分析(ICA)は統計機械学習や信号処理において一般的な次元削減ツールである。
本稿では,各独立成分を推定する副産物オンライン時系列アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T18:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。