論文の概要: Capturing the Denoising Effect of PCA via Compression Ratio
- arxiv url: http://arxiv.org/abs/2204.10888v2
- Date: Mon, 22 Apr 2024 02:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:49:47.029830
- Title: Capturing the Denoising Effect of PCA via Compression Ratio
- Title(参考訳): 圧縮比によるPCAの騒音抑制効果の把握
- Authors: Chandra Sekhar Mukherjee, Nikhil Doerkar, Jiapeng Zhang,
- Abstract要約: 主成分分析(PCA)は機械学習における最も基本的なツールの1つである。
本稿では,PCAが高次元雑音データに与える影響を捉えるために,Emphcompression ratioと呼ばれる新しい指標を提案する。
この新しい指標に基づいて、我々は、外れ値を検出するのに使える簡単なアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 3.967854215226183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Principal component analysis (PCA) is one of the most fundamental tools in machine learning with broad use as a dimensionality reduction and denoising tool. In the later setting, while PCA is known to be effective at subspace recovery and is proven to aid clustering algorithms in some specific settings, its improvement of noisy data is still not well quantified in general. In this paper, we propose a novel metric called \emph{compression ratio} to capture the effect of PCA on high-dimensional noisy data. We show that, for data with \emph{underlying community structure}, PCA significantly reduces the distance of data points belonging to the same community while reducing inter-community distance relatively mildly. We explain this phenomenon through both theoretical proofs and experiments on real-world data. Building on this new metric, we design a straightforward algorithm that could be used to detect outliers. Roughly speaking, we argue that points that have a \emph{lower variance of compression ratio} do not share a \emph{common signal} with others (hence could be considered outliers). We provide theoretical justification for this simple outlier detection algorithm and use simulations to demonstrate that our method is competitive with popular outlier detection tools. Finally, we run experiments on real-world high-dimension noisy data (single-cell RNA-seq) to show that removing points from these datasets via our outlier detection method improves the accuracy of clustering algorithms. Our method is very competitive with popular outlier detection tools in this task.
- Abstract(参考訳): 主成分分析(PCA)は機械学習において最も基本的なツールの1つであり、次元の減少と認知のためのツールとして広く利用されている。
後段では、PCAは部分空間の回復に有効であることが知られ、特定の設定でクラスタリングアルゴリズムを補助することが証明されているが、ノイズの多いデータの改善は一般的には十分に定量化されていない。
本稿では,PCAが高次元雑音データに与える影響を捉えるために,'emph{compression ratio'と呼ばれる新しい計量法を提案する。
そこで,PCAでは,コミュニティ間距離を相対的に小さくしながら,同一コミュニティに属するデータポイント間の距離を著しく削減できることを示す。
我々はこの現象を実世界のデータに関する理論的証明と実験の両方を通して説明する。
この新しい指標に基づいて、我々は、外れ値を検出するのに使える簡単なアルゴリズムを設計する。
大まかに言えば、圧縮比のより低い分散を持つ点は、他の点と共有しない(したがって外乱と見なすことができる)。
我々は,この単純な外乱検出アルゴリズムの理論的正当性を提供し,本手法が一般的な外乱検出ツールと競合することを示すためにシミュレーションを用いた。
最後に、実世界の高次元ノイズデータ(単一セルRNA-seq)を用いて実験を行い、アウトラヤ検出法によりこれらのデータセットから点を取り除くことにより、クラスタリングアルゴリズムの精度が向上することを示す。
我々の手法は、このタスクで一般的な外れ値検出ツールと非常に競合する。
関連論文リスト
- Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - ALPCAH: Sample-wise Heteroscedastic PCA with Tail Singular Value
Regularization [17.771454131646312]
主成分分析はデータ次元削減の分野で重要なツールである。
そこで本研究では,サンプル単位の雑音分散を推定できるPCA法を開発した。
これは低ランク成分の分布的な仮定なしで、ノイズの分散が知られていると仮定せずに行われる。
論文 参考訳(メタデータ) (2023-07-06T03:11:11Z) - CoMadOut -- A Robust Outlier Detection Algorithm based on CoMAD [0.3749861135832073]
データセット上の機械学習アルゴリズムの予測を歪める可能性があるため、アウトレーヤは重要な役割を果たす。
この問題に対処するために,ロバストな外乱検出アルゴリズムCoMadOutを提案する。
われわれの手法は、外乱検出タスクの堅牢な代替手段と見なすことができる。
論文 参考訳(メタデータ) (2022-11-23T21:33:34Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Stochastic and Private Nonconvex Outlier-Robust PCA [11.688030627514532]
外乱PCAは、外乱で破損したデータセットから下層の低次元線形部分空間を求める。
提案手法は,測地線降下と新しい収束解析を含む手法を含むことを示す。
メインの応用法は、アウトリアロバストPCAのための効果的にプライベートなアルゴリズムである。
論文 参考訳(メタデータ) (2022-03-17T12:00:47Z) - Turning Channel Noise into an Accelerator for Over-the-Air Principal
Component Analysis [65.31074639627226]
主成分分析(PCA)は、データセットの線形構造を抽出するための技術です。
勾配降下アルゴリズムに基づくマルチアクセスチャネル上にPCAを配置する手法を提案する。
オーバー・ザ・エア・アグリゲーションはマルチ・アクセスの遅延を減らすために採用され、オーバー・ザ・エア・PCAという名称を与える。
論文 参考訳(メタデータ) (2021-04-20T16:28:33Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Making Affine Correspondences Work in Camera Geometry Computation [62.7633180470428]
局所的な特徴は、ポイント・ツー・ポイント対応ではなく、リージョン・ツー・リージョンを提供する。
本稿では,全モデル推定パイプラインにおいて,地域間マッチングを効果的に活用するためのガイドラインを提案する。
実験により、アフィンソルバはより高速な実行時にポイントベースソルバに匹敵する精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-07-20T12:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。