論文の概要: Principal Component Analysis When n < p: Challenges and Solutions
- arxiv url: http://arxiv.org/abs/2503.17560v1
- Date: Fri, 21 Mar 2025 22:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:01.070948
- Title: Principal Component Analysis When n < p: Challenges and Solutions
- Title(参考訳): n < p: チャレンジと解の主成分分析
- Authors: Nuwan Weeraratne, Lyn Hunt, Jason Kurz,
- Abstract要約: 主成分分析は高次元データの複雑さを軽減するための重要な手法である。
標準主成分分析は高次元シナリオにおける次元還元手法として不十分に機能する。
本稿では,ペア差分共分散推定と呼ばれる新しい推定法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Principal Component Analysis is a key technique for reducing the complexity of high-dimensional data while preserving its fundamental data structure, ensuring models remain stable and interpretable. This is achieved by transforming the original variables into a new set of uncorrelated variables (principal components) based on the covariance structure of the original variables. However, since the traditional maximum likelihood covariance estimator does not accurately converge to the true covariance matrix, the standard principal component analysis performs poorly as a dimensionality reduction technique in high-dimensional scenarios $n<p$. In this study, inspired by a fundamental issue associated with mean estimation when $n<p$, we proposed a novel estimation called pairwise differences covariance estimation with four regularized versions of it to address the issues with the principal component analysis when n < p high dimensional data settings. In empirical comparisons with existing methods (maximum likelihood estimation and its best alternative method called Ledoit-Wolf estimation) and the proposed method(s), all the proposed regularized versions of pairwise differences covariance estimation perform well compared to those well-known estimators in estimating the covariance and principal components while minimizing the PCs' overdispersion and cosine similarity error. Real data applications are presented.
- Abstract(参考訳): 主成分分析は、その基本的なデータ構造を保ちながら高次元データの複雑さを減らし、モデルが安定して解釈可能であることを保証する重要な手法である。
これは、元の変数の共分散構造に基づいて、元の変数を新しい非相関変数(主成分)に変換することで達成される。
しかし、従来の最大最大共分散推定器は真の共分散行列に正確に収束しないため、標準主成分分析は高次元シナリオ$n<p$における次元還元手法として不十分に機能する。
そこで本研究では,n<p>の高次元データ設定における主成分分析の問題点に対処するため,n<p$における平均推定に関する基本的問題に着想を得て,その4つの正規化バージョンを用いたペアワイズ差分共分散推定という新しい推定法を提案した。
既存の手法(最大確率推定とLedoit-Wolf推定と呼ばれる最良の代替手法)と提案手法との実証的な比較では、PCの過分散とコサイン類似性誤差を最小化しながら、共分散と主成分を推定するよく知られた推定器と比較して、ペアワイズ差分共分散推定の正規化バージョンが良好に動作する。
実際のデータアプリケーションは提示されます。
関連論文リスト
- Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Optimal Differentially Private PCA and Estimation for Spiked Covariance Matrices [10.377683220196873]
共分散行列とその関連する主成分を推定することは、現代統計学における根本的な問題である。
スパイク共分散モデルにおける最適偏微分的主成分分析(PCA)と共分散推定について検討した。
計算効率のよい微分プライベート推定器を提案し、その極小極小性をガウス分布に対して証明する。
論文 参考訳(メタデータ) (2024-01-08T11:18:14Z) - On the Error-Propagation of Inexact Hotelling's Deflation for Principal Component Analysis [8.799674132085935]
本稿では,不正確なHotellingのデフレ手法の誤差伝搬を数学的に特徴づける。
エラーがどのように進行し、その後の主成分推定に影響を及ぼすかを明確に特徴づける。
論文 参考訳(メタデータ) (2023-10-06T14:33:21Z) - Multi-Fidelity Covariance Estimation in the Log-Euclidean Geometry [0.0]
対称正定値多様体の対数ユークリッド幾何学を利用する共分散行列の多値推定器を導入する。
固定予算が与えられた推定器の平均二乗誤差を最小化する最適サンプル割り当て方式を開発した。
物理アプリケーションからのデータによるアプローチの評価は、ベンチマークと比較すると、より正確なメトリック学習と1桁以上のスピードアップを示している。
論文 参考訳(メタデータ) (2023-01-31T16:33:46Z) - Quasi-parametric rates for Sparse Multivariate Functional Principal
Components Analysis [0.0]
最適化問題の解として固有値が表現可能であることを示す。
固有要素の平均2乗再構成誤差に基づいてミニマックス下限を定め、この手順がミニマックス感覚に最適な分散を有することを証明した。
論文 参考訳(メタデータ) (2022-12-19T13:17:57Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - One-shot Distributed Algorithm for Generalized Eigenvalue Problem [23.9525986377055]
一般化固有値問題(GEP)は、高次元統計モデルの大ファミリーにおいて重要な役割を果たす。
本稿では,GEPのためのワンショット通信を備えた汎用分散GEPフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-22T11:43:16Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。