論文の概要: Compressibility: Power of PCA in Clustering Problems Beyond
Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2204.10888v1
- Date: Fri, 22 Apr 2022 18:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 07:36:51.884935
- Title: Compressibility: Power of PCA in Clustering Problems Beyond
Dimensionality Reduction
- Title(参考訳): 圧縮性:次元化を超えるクラスタリング問題におけるPCAのパワー
- Authors: Chandra Sekhar Mukherjee and Jiapeng Zhang
- Abstract要約: また,PCAはクラスタ間距離を比較的緩やかに低減しつつ,同一クラスタに属するデータポイント間の距離を著しく低減することを示した。
このギャップは、実際に発見された多くの経験的な観察を説明してくれます。
単一セルRNAシークエンシング解析では,PCAをデータセットに適用することで,従来のクラスタリングアルゴリズムの精度が大幅に向上することが観察されている。
- 参考スコア(独自算出の注目度): 3.6202815454709536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we take a step towards understanding the impact of principle
component analysis (PCA) in the context of unsupervised clustering beyond a
dimensionality reduction tool. We explore another property of PCA in vector
clustering problems, which we call compressibility. This phenomenon shows that
PCA significantly reduces the distance of data points belonging to the same
clusters, while reducing inter-cluster distances relatively mildly. This gap
explains many empirical observations found in practice. For example, in
single-cell RNA-sequencing analysis, which is an application of vector
clustering in biology, it has been observed that applying PCA on datasets
significantly improves the accuracy of classical clustering algorithms such as
K-means.
We study this compression gap in both theory and practice. On the theoretical
side, we analyze PCA in a fairly general probabilistic setup, which we call the
random vector model. In terms of practice, we verify the compressibility of PCA
on multiple single-cell RNA-seq datasets.
- Abstract(参考訳): 本稿では, 基本成分分析(PCA)の影響を, 次元化ツールを超えた非教師なしクラスタリングの文脈で理解するための一歩を踏み出した。
圧縮性と呼ばれるベクトルクラスタリング問題におけるPCAの別の性質について検討する。
この現象は、PCAがクラスタ間距離を比較的緩やかに減少させながら、同一クラスタに属するデータポイントの距離を著しく減少させることを示している。
このギャップは、実際に見られる多くの経験的な観察を説明する。
例えば、生物学におけるベクトルクラスタリングの応用であるシングルセルRNAシークエンシング分析では、データセットにPCAを適用することで、K平均のような古典的なクラスタリングアルゴリズムの精度が大幅に向上することが観察されている。
我々はこの圧縮ギャップを理論と実践の両方で研究する。
理論的には、PCAを比較的一般的な確率的設定で解析し、ランダムベクトルモデルと呼ぶ。
複数のシングルセルRNA-seqデータセット上でPCAの圧縮性を検証する。
関連論文リスト
- Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Support Recovery in Sparse PCA with Non-Random Missing Data [27.3669650952144]
非ランダムサンプリング方式の下で,不完全かつノイズの多いデータに基づいてスパースPCAの実用的なアルゴリズムを解析する。
理論的には、ある条件下では、スパースリード固有ベクトルの支持を高い確率で回復することができる。
提案アルゴリズムは, 観察された成分が良好な構造特性を持つ場合, その他のスパースPCA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-03T04:20:25Z) - Local manifold learning and its link to domain-based physics knowledge [53.15471241298841]
多くの反応系では、熱化学状態空間は低次元多様体(LDM)に近く進化すると仮定される。
局所的データクラスタ(ローカルPCA)に適用されたPCAは,熱化学状態空間の固有パラメータ化を検出することができることを示す。
論文 参考訳(メタデータ) (2022-07-01T09:06:25Z) - coVariance Neural Networks [119.45320143101381]
グラフニューラルネットワーク(GNN)は、グラフ構造化データ内の相互関係を利用して学習する効果的なフレームワークである。
我々は、サンプル共分散行列をグラフとして扱う、共分散ニューラルネットワーク(VNN)と呼ばれるGNNアーキテクチャを提案する。
VNN の性能は PCA ベースの統計手法よりも安定していることを示す。
論文 参考訳(メタデータ) (2022-05-31T15:04:43Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z) - A Linearly Convergent Algorithm for Distributed Principal Component
Analysis [12.91948651812873]
本稿では,1時間スケール分散pcaアルゴリズムである分散sanger's algorithm(dsa)を提案する。
提案アルゴリズムは真の解の近傍に線形収束することを示した。
論文 参考訳(メタデータ) (2021-01-05T00:51:14Z) - Upper and Lower Bounds on the Performance of Kernel PCA [15.745403317380282]
我々はカーネルpcaの効率について下界と上界に寄与する。
2つの境界は固定推定値であり、2つはPAC-ベイズ理論によるランダム化推定値である。
我々はカーネルPCAアルゴリズムの強みと限界を強調するために境界を散布します。
論文 参考訳(メタデータ) (2020-12-18T17:19:31Z) - Principal Ellipsoid Analysis (PEA): Efficient non-linear dimension
reduction & clustering [9.042239247913642]
本稿では,データとより柔軟なクラスタ形状の非線形関係を実現することにより,PCAとk平均の改善に焦点を当てる。
鍵となる貢献は、PCAに代わる単純で効率的な代替品を定義する、PEA(Principal Analysis)の新しいフレームワークである。
さまざまな実際のデータクラスタリングアプリケーションにおいて、PEAは単純なデータセットのためのk-meansと同様に機能し、より複雑な設定でパフォーマンスを劇的に改善する。
論文 参考訳(メタデータ) (2020-08-17T06:25:50Z) - Approximation Algorithms for Sparse Principal Component Analysis [57.5357874512594]
主成分分析(PCA)は、機械学習と統計学において広く使われている次元削減手法である。
スパース主成分分析(Sparse principal Component Analysis)と呼ばれる,スパース主成分負荷を求める様々な手法が提案されている。
本研究では,SPCA問題に対するしきい値の精度,時間,近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-23T04:25:36Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。