論文の概要: Resampling Sensitivity of High-Dimensional PCA
- arxiv url: http://arxiv.org/abs/2212.14531v1
- Date: Fri, 30 Dec 2022 03:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:35:15.919822
- Title: Resampling Sensitivity of High-Dimensional PCA
- Title(参考訳): 高次元PCAのサンプリング感度
- Authors: Haoyu Wang
- Abstract要約: 主成分分析(PCA)における再サンプリング感度の検討
我々は,PCAが入力データに敏感であることを示す。
- 参考スコア(独自算出の注目度): 7.436169208279454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of stability and sensitivity of statistical methods or algorithms
with respect to their data is an important problem in machine learning and
statistics. The performance of the algorithm under resampling of the data is a
fundamental way to measure its stability and is closely related to
generalization or privacy of the algorithm. In this paper, we study the
resampling sensitivity for the principal component analysis (PCA). Given an $ n
\times p $ random matrix $ \mathbf{X} $, let $ \mathbf{X}^{[k]} $ be the matrix
obtained from $ \mathbf{X} $ by resampling $ k $ randomly chosen entries of $
\mathbf{X} $. Let $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ denote the principal
components of $ \mathbf{X} $ and $ \mathbf{X}^{[k]} $. In the proportional
growth regime $ p/n \to \xi \in (0,1] $, we establish the sharp threshold for
the sensitivity/stability transition of PCA. When $ k \gg n^{5/3} $, the
principal components $ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ are asymptotically
orthogonal. On the other hand, when $ k \ll n^{5/3} $, the principal components
$ \mathbf{v} $ and $ \mathbf{v}^{[k]} $ are asymptotically colinear. In words,
we show that PCA is sensitive to the input data in the sense that resampling
even a negligible portion of the input may completely change the output.
- Abstract(参考訳): データに対する統計手法やアルゴリズムの安定性や感度に関する研究は、機械学習や統計学において重要な問題である。
データの再サンプリング中のアルゴリズムの性能は、その安定性を測定する基本的な方法であり、アルゴリズムの一般化やプライバシと密接に関連している。
本稿では,主成分分析(PCA)における再サンプリング感度について検討する。
n \times p $ ランダム行列 $ \mathbf{X} $ を与えられたとき、$ \mathbf{X}^{[k]} $ を $ \mathbf{X} $ から得た行列とし、$ k を $ \mathbf{X} $ のランダムに選択したエントリを再サンプリングする。
$ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は $ \mathbf{X} $ と $ \mathbf{X}^{[k]} $ の主成分を表す。
比例成長体制 $ p/n \to \xi \in (0,1] $ では、PCAの感度/安定性遷移の鋭い閾値を確立する。
k \gg n^{5/3} $ のとき、主成分 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は漸近的に直交する。
一方、$ k \ll n^{5/3} $ のとき、主成分 $ \mathbf{v} $ と $ \mathbf{v}^{[k]} $ は漸近的に共線型である。
言い換えると、PCAは入力データに敏感であり、入力の無視部分でも再サンプリングすることで出力が完全に変化する可能性がある。
関連論文リスト
- In-depth Analysis of Low-rank Matrix Factorisation in a Federated Setting [21.002519159190538]
我々は分散アルゴリズムを解析し、$N$クライアント上で低ランク行列の分解を計算する。
グローバルな$mathbfV$ in $mathbbRd times r$をすべてのクライアントに共通とし、ローカルな$mathbfUi$ in $mathbbRn_itimes r$を得る。
論文 参考訳(メタデータ) (2024-09-13T12:28:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Optimal Estimator for Linear Regression with Shuffled Labels [17.99906229036223]
本稿では,シャッフルラベルを用いた線形回帰の課題について考察する。
mathbb Rntimes m の $mathbf Y、mathbb Rntimes p の mathbf Pi、mathbb Rptimes m$ の mathbf B、mathbb Rntimes m$ の $mathbf Win mathbb Rntimes m$ である。
論文 参考訳(メタデータ) (2023-10-02T16:44:47Z) - Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix
Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。
目標は、低ランク因子の積として$mathbfA$を近似することである。
我々の手法はBMF問題の他の一般的な変種に一般化する。
論文 参考訳(メタデータ) (2023-06-02T18:55:27Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Spiked Covariance Estimation from Modulo-Reduced Measurements [14.569322713960494]
我々は、ほとんどの方向において$bfu$と$nu=mathrmpoly(k)$に対して、$n=mathrmpoly(k)$測定を用いて、高い精度で$bfu$を推定するアルゴリズムを開発し、分析する。
数値実験により,非漸近的条件下でも良好な性能が得られた。
論文 参考訳(メタデータ) (2021-10-04T02:10:47Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - On the computational and statistical complexity of over-parameterized
matrix sensing [30.785670369640872]
FGD法(Factorized Gradient Descend)を用いた低ランク行列検出の解法を検討する。
分解行列 $mathbff$ を分離列空間に分解することにより、$|mathbff_t - mathbff_t - mathbfx*|_f2$ が統計誤差に収束することを示す。
論文 参考訳(メタデータ) (2021-01-27T04:23:49Z) - The Average-Case Time Complexity of Certifying the Restricted Isometry
Property [66.65353643599899]
圧縮センシングにおいて、100万倍のN$センシング行列上の制限等尺性(RIP)はスパースベクトルの効率的な再構成を保証する。
Mtimes N$ matrices with i.d.$mathcalN(0,1/M)$ entry。
論文 参考訳(メタデータ) (2020-05-22T16:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。