論文の概要: Resampling Sensitivity of High-Dimensional PCA
- arxiv url: http://arxiv.org/abs/2212.14531v1
- Date: Fri, 30 Dec 2022 03:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:35:15.919822
- Title: Resampling Sensitivity of High-Dimensional PCA
- Title(参考訳): 高次元PCAのサンプリング感度
- Authors: Haoyu Wang
- Abstract要約: 主成分分析(PCA)における再サンプリング感度の検討
- 参考スコア(独自算出の注目度): 7.436169208279454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of stability and sensitivity of statistical methods or algorithms
with respect to their data is an important problem in machine learning and
statistics. The performance of the algorithm under resampling of the data is a
fundamental way to measure its stability and is closely related to
generalization or privacy of the algorithm. In this paper, we study the
resampling sensitivity for the principal component analysis (PCA). Given an $ n
\times p $ random matrix $ \mathbf{X} $, let $ \mathbf{X}^{[k]} $ be the matrix
obtained from $ \mathbf{X} $ by resampling $ k $ randomly chosen entries of $
\mathbf{X} $. Let $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ denote the principal
components of $ \mathbf{X} $ and $ \mathbf{X}^{[k]} $. In the proportional
growth regime $ p/n \to \xi \in (0,1] $, we establish the sharp threshold for
the sensitivity/stability transition of PCA. When $ k \gg n^{5/3} $, the
principal components $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ are asymptotically
orthogonal. On the other hand, when $ k \ll n^{5/3} $, the principal components
$ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ are asymptotically colinear. In words,
we show that PCA is sensitive to the input data in the sense that resampling
even a negligible portion of the input may completely change the output.
- Abstract(参考訳): データに対する統計手法やアルゴリズムの安定性や感度に関する研究は、機械学習や統計学において重要な問題である。
n \times p $ ランダム行列 $ \mathbf{X} $ を与えられたとき、$ \mathbf{X}^{[k]} $ を $ \mathbf{X} $ から得た行列とし、$ k を $ \mathbf{X} $ のランダムに選択したエントリを再サンプリングする。
$ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は $ \mathbf{X} $ と $ \mathbf{X}^{[k]} $ の主成分を表す。
比例成長体制 $ p/n \to \xi \in (0,1] $ では、PCAの感度/安定性遷移の鋭い閾値を確立する。
k \gg n^{5/3} $ のとき、主成分 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は漸近的に直交する。
一方、$ k \ll n^{5/3} $ のとき、主成分 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は漸近的に共線型である。
- In-depth Analysis of Low-rank Matrix Factorisation in a Federated Setting [21.002519159190538]
グローバルな$mathbfV$ in $mathbbRd times r$をすべてのクライアントに共通とし、ローカルな$mathbfUi$ in $mathbbRn_itimes r$を得る。
論文 参考訳(メタデータ) (2024-09-13T12:28:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Optimal Estimator for Linear Regression with Shuffled Labels [17.99906229036223]
mathbb Rntimes m の $mathbf Y、mathbb Rntimes p の mathbf Pi、mathbb Rptimes m$ の mathbf B、mathbb Rntimes m$ の $mathbf Win mathbb Rntimes m$ である。
論文 参考訳(メタデータ) (2023-10-02T16:44:47Z) - Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix
Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-02T18:55:27Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Spiked Covariance Estimation from Modulo-Reduced Measurements [14.569322713960494]
論文 参考訳(メタデータ) (2021-10-04T02:10:47Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - On the computational and statistical complexity of over-parameterized
matrix sensing [30.785670369640872]
FGD法(Factorized Gradient Descend)を用いた低ランク行列検出の解法を検討する。
分解行列 $mathbff$ を分離列空間に分解することにより、$|mathbff_t - mathbff_t - mathbfx*|_f2$ が統計誤差に収束することを示す。
論文 参考訳(メタデータ) (2021-01-27T04:23:49Z) - The Average-Case Time Complexity of Certifying the Restricted Isometry
Property [66.65353643599899]
Mtimes N$ matrices with i.d.$mathcalN(0,1/M)$ entry。
論文 参考訳(メタデータ) (2020-05-22T16:55:01Z)