論文の概要: ALPCAH: Sample-wise Heteroscedastic PCA with Tail Singular Value
Regularization
- arxiv url: http://arxiv.org/abs/2307.02745v1
- Date: Thu, 6 Jul 2023 03:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:25:44.306294
- Title: ALPCAH: Sample-wise Heteroscedastic PCA with Tail Singular Value
Regularization
- Title(参考訳): ALPCAH:Tail Singular Value Regularizationを用いたサンプルワイズヘテロシダスティックPCA
- Authors: Javier Salazar Cavazos, Jeffrey A. Fessler, Laura Balzano
- Abstract要約: 主成分分析はデータ次元削減の分野で重要なツールである。
そこで本研究では,サンプル単位の雑音分散を推定できるPCA法を開発した。
これは低ランク成分の分布的な仮定なしで、ノイズの分散が知られていると仮定せずに行われる。
- 参考スコア(独自算出の注目度): 28.24679019484073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Principal component analysis (PCA) is a key tool in the field of data
dimensionality reduction that is useful for various data science problems.
However, many applications involve heterogeneous data that varies in quality
due to noise characteristics associated with different sources of the data.
Methods that deal with this mixed dataset are known as heteroscedastic methods.
Current methods like HePPCAT make Gaussian assumptions of the basis
coefficients that may not hold in practice. Other methods such as Weighted PCA
(WPCA) assume the noise variances are known, which may be difficult to know in
practice. This paper develops a PCA method that can estimate the sample-wise
noise variances and use this information in the model to improve the estimate
of the subspace basis associated with the low-rank structure of the data. This
is done without distributional assumptions of the low-rank component and
without assuming the noise variances are known. Simulations show the
effectiveness of accounting for such heteroscedasticity in the data, the
benefits of using such a method with all of the data versus retaining only good
data, and comparisons are made against other PCA methods established in the
literature like PCA, Robust PCA (RPCA), and HePPCAT. Code available at
https://github.com/javiersc1/ALPCAH
- Abstract(参考訳): 主成分分析(PCA)はデータ次元削減の分野で重要なツールであり、様々なデータサイエンス問題に有用である。
しかし、多くの応用は、異なるデータ源に関連するノイズ特性により品質が変化する異種データを含む。
この混合データセットを扱う手法はヘテロシデスティック法として知られている。
HePPCATのような現在の手法は、実際は成り立たない基底係数のガウス的仮定を作る。
重み付きPCA (WPCA) のような他の手法はノイズの分散が知られていると仮定するが、実際は知るのが難しい。
本稿では,サンプル単位の雑音分散を推定できるPCA法を開発し,この情報を用いてデータの低ランク構造に関連する部分空間ベースの推定を改善する。
これは低ランク成分の分布的な仮定やノイズ分散が知られていると仮定せずに行われる。
シミュレーションでは, データのヘテロセシスティック性を考慮し, 全データと良好なデータのみを保持することの利点, PCA, Robust PCA (RPCA) や HePPCAT などの文献で確立されている他の PCA 手法との比較を行った。
コードはhttps://github.com/javiersc1/alpcahで利用可能
関連論文リスト
- Empirical Bayes Covariance Decomposition, and a solution to the Multiple
Tuning Problem in Sparse PCA [2.5382095320488673]
スパース主成分分析(PCA)は,PCAの解釈可能性と信頼性を両立させる手法として提案されている。
経験ベイズ法による「複数チューニング問題」の解法を提案する。
論文 参考訳(メタデータ) (2023-12-06T04:00:42Z) - HeMPPCAT: Mixtures of Probabilistic Principal Component Analysers for
Data with Heteroscedastic Noise [28.24679019484073]
MPPCAは、各混合物のデータサンプルがホモシステマティックノイズを含むと仮定する。
MPPCAの性能は、サンプル間での異方性雑音を伴うデータに対して最適である。
本稿では,一般化予測最大化(GEM)アルゴリズムを用いた確率的PCA手法(HeMPPCAT)のヘテロ代用混合物を提案する。
論文 参考訳(メタデータ) (2023-01-21T02:00:55Z) - Capturing the Denoising Effect of PCA via Compression Ratio [3.967854215226183]
主成分分析(PCA)は機械学習における最も基本的なツールの1つである。
本稿では,PCAが高次元雑音データに与える影響を捉えるために,Emphcompression ratioと呼ばれる新しい指標を提案する。
この新しい指標に基づいて、我々は、外れ値を検出するのに使える簡単なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-04-22T18:43:47Z) - Stochastic and Private Nonconvex Outlier-Robust PCA [11.688030627514532]
外乱PCAは、外乱で破損したデータセットから下層の低次元線形部分空間を求める。
提案手法は,測地線降下と新しい収束解析を含む手法を含むことを示す。
メインの応用法は、アウトリアロバストPCAのための効果的にプライベートなアルゴリズムである。
論文 参考訳(メタデータ) (2022-03-17T12:00:47Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Noise-Resistant Deep Metric Learning with Probabilistic Instance
Filtering [59.286567680389766]
ノイズラベルは現実世界のデータによく見られ、ディープニューラルネットワークの性能劣化を引き起こす。
DMLのための確率的ランク付けに基づくメモリを用いたインスタンス選択(PRISM)手法を提案する。
PRISMはラベルがクリーンである確率を計算し、潜在的にノイズの多いサンプルをフィルタリングする。
論文 参考訳(メタデータ) (2021-08-03T12:15:25Z) - Capturing patterns of variation unique to a specific dataset [68.8204255655161]
対象データセットの1つ以上の比較データセットに対する低次元表現を同定するチューニングフリー手法を提案する。
複数の実験で、単一のバックグラウンドデータセットを持つUCAが、様々なチューニングパラメータを持つcPCAと同じような結果を達成することを示しました。
論文 参考訳(メタデータ) (2021-04-16T15:07:32Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z) - Multi-class Gaussian Process Classification with Noisy Inputs [2.362412515574206]
いくつかの状況では、騒音の量は事前に知ることができる。
提案手法を,合成データと実データを含むいくつかの実験により評価した。
論文 参考訳(メタデータ) (2020-01-28T18:55:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。