論文の概要: Robust Principal Component Analysis: A Median of Means Approach
- arxiv url: http://arxiv.org/abs/2102.03403v2
- Date: Thu, 20 Jul 2023 05:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 19:35:49.213954
- Title: Robust Principal Component Analysis: A Median of Means Approach
- Title(参考訳): ロバスト主成分分析:手段アプローチの中央値
- Authors: Debolina Paul, Saptarshi Chakraborty and Swagatam Das
- Abstract要約: 主成分分析(main Component Analysis)は、データビジュアライゼーション、デノイング、次元削減のためのツールである。
最近の教師付き学習手法は、外見的な観察を扱う上で大きな成功を収めている。
本稿では,MoM原理に基づくPCA手法を提案する。
- 参考スコア(独自算出の注目度): 17.446104539598895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Principal Component Analysis (PCA) is a fundamental tool for data
visualization, denoising, and dimensionality reduction. It is widely popular in
Statistics, Machine Learning, Computer Vision, and related fields. However, PCA
is well-known to fall prey to outliers and often fails to detect the true
underlying low-dimensional structure within the dataset. Following the Median
of Means (MoM) philosophy, recent supervised learning methods have shown great
success in dealing with outlying observations without much compromise to their
large sample theoretical properties. This paper proposes a PCA procedure based
on the MoM principle. Called the \textbf{M}edian of \textbf{M}eans
\textbf{P}rincipal \textbf{C}omponent \textbf{A}nalysis (MoMPCA), the proposed
method is not only computationally appealing but also achieves optimal
convergence rates under minimal assumptions. In particular, we explore the
non-asymptotic error bounds of the obtained solution via the aid of the
Rademacher complexities while granting absolutely no assumption on the outlying
observations. The derived concentration results are not dependent on the
dimension because the analysis is conducted in a separable Hilbert space, and
the results only depend on the fourth moment of the underlying distribution in
the corresponding norm. The proposal's efficacy is also thoroughly showcased
through simulations and real data applications.
- Abstract(参考訳): 主成分分析(PCA)は、データの可視化、復調、次元化のための基本的なツールである。
統計学、機械学習、コンピュータビジョン、関連する分野で広く使われている。
しかし、PCAは外れ値に陥ることがよく知られており、しばしばデータセット内の真の下層の低次元構造を検出することに失敗する。
メディア・オブ・ミーンズ(MoM)の哲学に従い、近年の教師付き学習手法は、膨大なサンプル理論特性を損なうことなく、外部観測を扱うことに成功している。
本稿では,MoM原理に基づくPCA手法を提案する。
mompca (textbf{m}edian of \textbf{m}eans \textbf{p}rincipal \textbf{c}omponent \textbf{a}nalysis) と呼ばれるこの手法は計算上魅力的であるだけでなく、最小の仮定の下で最適収束率を達成する。
特に、ラデマッハ複素数の助けを借りて得られた解の漸近的でない誤差境界を探索し、外部の観測に全く仮定を与えない。
導出された濃度結果は、解析が分離可能なヒルベルト空間で行われ、結果が対応するノルムにおける基底分布の4番目のモーメントのみに依存するため、次元に依存しない。
提案の有効性はシミュレーションや実データアプリケーションを通じて徹底的に実証されている。
関連論文リスト
- Assumption-Lean Post-Integrated Inference with Negative Control Outcomes [0.0]
負の制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
提案手法は,予測された直接効果推定値,隠された仲介者,共同設立者,モデレーターまで拡張する。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Support Recovery in Sparse PCA with Non-Random Missing Data [27.3669650952144]
非ランダムサンプリング方式の下で,不完全かつノイズの多いデータに基づいてスパースPCAの実用的なアルゴリズムを解析する。
理論的には、ある条件下では、スパースリード固有ベクトルの支持を高い確率で回復することができる。
提案アルゴリズムは, 観察された成分が良好な構造特性を持つ場合, その他のスパースPCA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-03T04:20:25Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Support Recovery in Sparse PCA with Incomplete Data [27.3669650952144]
主成分分析(PCA)不完全データに対する実用的アルゴリズムを用いる。
未知の真のSDPが不完全支持行列を正確に復元できるという理論的および実験的証拠を提供する。
不完全データを用いて理論結果を検証し、分散表現において有意義な結果を示す。
論文 参考訳(メタデータ) (2022-05-30T16:17:39Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。
本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。
通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文 参考訳(メタデータ) (2021-03-24T21:08:43Z) - Continuous Wasserstein-2 Barycenter Estimation without Minimax
Optimization [94.18714844247766]
ワッサーシュタイン・バリセンターは、最適輸送に基づく確率測度の重み付き平均の幾何学的概念を提供する。
本稿では,Wasserstein-2 バリセンタのサンプルアクセスを演算するスケーラブルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-02T21:01:13Z) - Modal Principal Component Analysis [3.050919759387985]
平均推定の代わりにモード推定を用いて,多くの統計的手法のロバスト性を向上できることが示されている。
本研究では,モード推定に基づく頑健なPCA手法であるMPCAを提案する。
論文 参考訳(メタデータ) (2020-08-07T23:59:05Z) - A Robust Functional EM Algorithm for Incomplete Panel Count Data [66.07942227228014]
完全無作為な仮定(MCAR)の下での数え上げ過程の平均関数を推定する機能的EMアルゴリズムを提案する。
提案アルゴリズムは、いくつかの一般的なパネル数推定手法をラップし、不完全数にシームレスに対処し、ポアソン過程の仮定の誤特定に頑健である。
本稿では, 数値実験による提案アルゴリズムの有用性と喫煙停止データの解析について述べる。
論文 参考訳(メタデータ) (2020-03-02T20:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。