論文の概要: A New Basis for Sparse Principal Component Analysis
- arxiv url: http://arxiv.org/abs/2007.00596v2
- Date: Tue, 7 Sep 2021 06:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:51:38.334514
- Title: A New Basis for Sparse Principal Component Analysis
- Title(参考訳): スパース主成分分析のための新しい基礎
- Authors: Fan Chen and Karl Rohe
- Abstract要約: 以前のスパース主成分分析では、固有基底 ($p 倍 k$ 行列) がほぼスパースであると仮定されていた。
我々は、$p × k$ 行列が、$k × k$ 回転の後にほぼスパースとなると仮定する手法を提案する。
同レベルの疎度では,提案したスパースPCA法の方が安定であり,代替手法よりも分散を説明できることを示す。
- 参考スコア(独自算出の注目度): 5.258928416164104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous versions of sparse principal component analysis (PCA) have presumed
that the eigen-basis (a $p \times k$ matrix) is approximately sparse. We
propose a method that presumes the $p \times k$ matrix becomes approximately
sparse after a $k \times k$ rotation. The simplest version of the algorithm
initializes with the leading $k$ principal components. Then, the principal
components are rotated with an $k \times k$ orthogonal rotation to make them
approximately sparse. Finally, soft-thresholding is applied to the rotated
principal components. This approach differs from prior approaches because it
uses an orthogonal rotation to approximate a sparse basis. One consequence is
that a sparse component need not to be a leading eigenvector, but rather a
mixture of them. In this way, we propose a new (rotated) basis for sparse PCA.
In addition, our approach avoids "deflation" and multiple tuning parameters
required for that. Our sparse PCA framework is versatile; for example, it
extends naturally to a two-way analysis of a data matrix for simultaneous
dimensionality reduction of rows and columns. We provide evidence showing that
for the same level of sparsity, the proposed sparse PCA method is more stable
and can explain more variance compared to alternative methods. Through three
applications -- sparse coding of images, analysis of transcriptome sequencing
data, and large-scale clustering of social networks, we demonstrate the modern
usefulness of sparse PCA in exploring multivariate data.
- Abstract(参考訳): スパース主成分分析 (PCA) の以前のバージョンでは、固有基底 (a $p \times k$ matrix) はおよそスパースであると推定されている。
我々は、$p \times k$ 行列を$k \times k$ 回転の後におよそスパースと仮定する手法を提案する。
アルゴリズムの最も単純なバージョンは、主成分である$k$で初期化される。
その後、主成分は$k \times k$直交回転で回転し、ほぼスパースとなる。
最後に、回転した主成分にソフトthresholdingを適用する。
このアプローチは、直交回転を使ってスパース基底を近似するため、以前のアプローチとは異なる。
結果として、スパース成分が主固有ベクトルである必要はなく、むしろそれらの混合である。
このようにして、スパースPCAの新しい(回転した)ベースを提案する。
さらに,提案手法では,"定義"とそれに必要な複数のチューニングパラメータを回避している。
我々のスパースPCAフレームワークは汎用的であり、例えば、列と列の同時次元化のためのデータ行列の双方向解析に自然に拡張する。
また,同レベルの疎水性を示すため,提案したスパースPCA法はより安定であり,代替手法よりも分散を説明できることを示す。
画像のスパースコーディング、トランスクリプトームシークエンシングデータの解析、ソーシャルネットワークの大規模クラスタリングという3つのアプリケーションを通して、マルチ変数データの探索におけるスパースPCAの現代的有用性を示す。
関連論文リスト
- Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Leverage Score Sampling for Tensor Product Matrices in Input Sparsity
Time [54.65688986250061]
我々は,$q$-foldカラムワイドテンソル積の$q$行列に対応するグラム行列を近似するための入力空間時間サンプリングアルゴリズムを提案する。
我々のサンプリング技術は、合計時間でデータセット$X$に同時に適用できる$q$部分相関ランダムプロジェクションのコレクションに依存している。
論文 参考訳(メタデータ) (2022-02-09T15:26:03Z) - Sparse PCA on fixed-rank matrices [0.05076419064097732]
共分散行列のランクが固定値であれば、大域的最適性に対してスパースPCAを解くアルゴリズムが存在することを示す。
また,主成分の非結合性を必要とするスパースPCAについても同様の結果が得られた。
論文 参考訳(メタデータ) (2022-01-07T15:05:32Z) - Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean
Estimation [58.24280149662003]
本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。
我々は、ほぼ最適な統計的保証を達成するために、リストデコダブル平均推定のための新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-16T03:34:14Z) - List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。
我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。
我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文 参考訳(メタデータ) (2020-11-19T17:21:37Z) - Linear-Sample Learning of Low-Rank Distributions [56.59844655107251]
ktimes k$, rank-r$, matrices to normalized $L_1$ distance requires $Omega(frackrepsilon2)$ sample。
我々は、$cal O(frackrepsilon2log2fracepsilon)$ sample, a number linear in the high dimension, and almost linear in the matrices, usually low, rank proofs.というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-30T19:10:32Z) - A Framework for Private Matrix Analysis [20.407204637672887]
我々は、スペクトル近似、主成分分析、線形回帰のための空間微分プライベートアルゴリズムを第1の効率$o(W)$で提供する。
また、主成分分析の2つの重要な変種に対して、効率的な微分プライベートアルゴリズムを創出し、示す。
論文 参考訳(メタデータ) (2020-09-06T08:01:59Z) - Robust Sub-Gaussian Principal Component Analysis and Width-Independent
Schatten Packing [22.337756118270217]
基本統計量に対する2つの方法を開発した:$epsilon$-corrupted set of $n$ sample from a $d$-linear sub-Gaussian distribution。
最初のロバストなアルゴリズムは反復フィルタリングを時間内に実行し、近似固有ベクトルを返し、単純なフィルタリングアプローチに基づいている。
私たちの2つめは、わずかに悪い近似係数を達成し、軽度のスペクトルギャップ仮定の下でほぼ自明な時間とイテレーションで実行します。
論文 参考訳(メタデータ) (2020-06-12T07:45:38Z) - Information-Theoretic Limits for the Matrix Tensor Product [8.206394018475708]
本稿では,ランダム行列の行列テンソル積を含む高次元推論問題について検討する。
本稿では,高次元行列保存信号の解析のための新しい手法を紹介する。
論文 参考訳(メタデータ) (2020-05-22T17:03:48Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z) - Solving Large-Scale Sparse PCA to Certifiable (Near) Optimality [3.179831861897336]
既存のアプローチでは、$p=100s$以上の変数を持つ最適の主成分を供給できない。
凹凸混合整数半定値最適化問題としてスパースPCAを再構成することにより、証明可能な最適性に問題を解く切削平面法を設計する。
また,p=100$s,あるいはp=1,000$sの時間に,実際に1~2%のギャップを分単位で有界に与える凸緩和および欲求円周スキームを提案する。
論文 参考訳(メタデータ) (2020-05-11T15:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。