論文の概要: Compressibility: Power of PCA in Clustering Problems Beyond
Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2204.10888v1
- Date: Fri, 22 Apr 2022 18:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 07:36:51.884935
- Title: Compressibility: Power of PCA in Clustering Problems Beyond
Dimensionality Reduction
- Title(参考訳): 圧縮性:次元化を超えるクラスタリング問題におけるPCAのパワー
- Authors: Chandra Sekhar Mukherjee and Jiapeng Zhang
- Abstract要約: また,PCAはクラスタ間距離を比較的緩やかに低減しつつ,同一クラスタに属するデータポイント間の距離を著しく低減することを示した。
このギャップは、実際に発見された多くの経験的な観察を説明してくれます。
単一セルRNAシークエンシング解析では,PCAをデータセットに適用することで,従来のクラスタリングアルゴリズムの精度が大幅に向上することが観察されている。
- 参考スコア(独自算出の注目度): 3.6202815454709536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we take a step towards understanding the impact of principle
component analysis (PCA) in the context of unsupervised clustering beyond a
dimensionality reduction tool. We explore another property of PCA in vector
clustering problems, which we call compressibility. This phenomenon shows that
PCA significantly reduces the distance of data points belonging to the same
clusters, while reducing inter-cluster distances relatively mildly. This gap
explains many empirical observations found in practice. For example, in
single-cell RNA-sequencing analysis, which is an application of vector
clustering in biology, it has been observed that applying PCA on datasets
significantly improves the accuracy of classical clustering algorithms such as
K-means.
We study this compression gap in both theory and practice. On the theoretical
side, we analyze PCA in a fairly general probabilistic setup, which we call the
random vector model. In terms of practice, we verify the compressibility of PCA
on multiple single-cell RNA-seq datasets.
- Abstract(参考訳): 本稿では, 基本成分分析(PCA)の影響を, 次元化ツールを超えた非教師なしクラスタリングの文脈で理解するための一歩を踏み出した。
圧縮性と呼ばれるベクトルクラスタリング問題におけるPCAの別の性質について検討する。
この現象は、PCAがクラスタ間距離を比較的緩やかに減少させながら、同一クラスタに属するデータポイントの距離を著しく減少させることを示している。
このギャップは、実際に見られる多くの経験的な観察を説明する。
例えば、生物学におけるベクトルクラスタリングの応用であるシングルセルRNAシークエンシング分析では、データセットにPCAを適用することで、K平均のような古典的なクラスタリングアルゴリズムの精度が大幅に向上することが観察されている。
我々はこの圧縮ギャップを理論と実践の両方で研究する。
理論的には、PCAを比較的一般的な確率的設定で解析し、ランダムベクトルモデルと呼ぶ。
複数のシングルセルRNA-seqデータセット上でPCAの圧縮性を検証する。
関連論文リスト
- Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - ALPCAH: Sample-wise Heteroscedastic PCA with Tail Singular Value
Regularization [17.771454131646312]
主成分分析はデータ次元削減の分野で重要なツールである。
そこで本研究では,サンプル単位の雑音分散を推定できるPCA法を開発した。
これは低ランク成分の分布的な仮定なしで、ノイズの分散が知られていると仮定せずに行われる。
論文 参考訳(メタデータ) (2023-07-06T03:11:11Z) - CoMadOut -- A Robust Outlier Detection Algorithm based on CoMAD [0.3749861135832073]
データセット上の機械学習アルゴリズムの予測を歪める可能性があるため、アウトレーヤは重要な役割を果たす。
この問題に対処するために,ロバストな外乱検出アルゴリズムCoMadOutを提案する。
われわれの手法は、外乱検出タスクの堅牢な代替手段と見なすことができる。
論文 参考訳(メタデータ) (2022-11-23T21:33:34Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Stochastic and Private Nonconvex Outlier-Robust PCA [11.688030627514532]
外乱PCAは、外乱で破損したデータセットから下層の低次元線形部分空間を求める。
提案手法は,測地線降下と新しい収束解析を含む手法を含むことを示す。
メインの応用法は、アウトリアロバストPCAのための効果的にプライベートなアルゴリズムである。
論文 参考訳(メタデータ) (2022-03-17T12:00:47Z) - Turning Channel Noise into an Accelerator for Over-the-Air Principal
Component Analysis [65.31074639627226]
主成分分析(PCA)は、データセットの線形構造を抽出するための技術です。
勾配降下アルゴリズムに基づくマルチアクセスチャネル上にPCAを配置する手法を提案する。
オーバー・ザ・エア・アグリゲーションはマルチ・アクセスの遅延を減らすために採用され、オーバー・ザ・エア・PCAという名称を与える。
論文 参考訳(メタデータ) (2021-04-20T16:28:33Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。