論文の概要: Subspace Recovery in Winsorized PCA: Insights into Accuracy and Robustness
- arxiv url: http://arxiv.org/abs/2502.16391v1
- Date: Sun, 23 Feb 2025 00:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:35.911405
- Title: Subspace Recovery in Winsorized PCA: Insights into Accuracy and Robustness
- Title(参考訳): Winsorized PCAにおけるサブスペースリカバリ:精度とロバスト性に着目して
- Authors: Sangil Han, Kyoowon Kim, Sungkyu Jung,
- Abstract要約: 我々はWinsorized principal Component Analysis (WPCA) を用いた部分空間回復の理論的性質について検討する。
我々は,WPCAの精度を詳細に分析し,サンプル数の増加とともに,サンプルサブスペースの整合性も保証されることを示す。
我々は、分解点の古典的な概念を、部分空間値統計に拡張し、WPCAの分解点の下位境界を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we explore the theoretical properties of subspace recovery using Winsorized Principal Component Analysis (WPCA), utilizing a common data transformation technique that caps extreme values to mitigate the impact of outliers. Despite the widespread use of winsorization in various tasks of multivariate analysis, its theoretical properties, particularly for subspace recovery, have received limited attention. We provide a detailed analysis of the accuracy of WPCA, showing that increasing the number of samples while decreasing the proportion of outliers guarantees the consistency of the sample subspaces from WPCA with respect to the true population subspace. Furthermore, we establish perturbation bounds that ensure the WPCA subspace obtained from contaminated data remains close to the subspace recovered from pure data. Additionally, we extend the classical notion of breakdown points to subspace-valued statistics and derive lower bounds for the breakdown points of WPCA. Our analysis demonstrates that WPCA exhibits strong robustness to outliers while maintaining consistency under mild assumptions. A toy example is provided to numerically illustrate the behavior of the upper bounds for perturbation bounds and breakdown points, emphasizing winsorization's utility in subspace recovery.
- Abstract(参考訳): 本稿では,ウィンゾライズド・プリンシパル・コンポーネント・アナリティクス(WPCA)を用いたサブスペース・リカバリの理論的特性について検討する。
多変量解析の様々なタスクでウインソリゼーションが広く用いられているにもかかわらず、その理論的性質、特に部分空間の回復にはあまり関心が寄せられていない。
我々は,WPCAの精度を詳細に分析し,サンプル数の増大とともに,外乱率の減少が真の集団部分空間に対するサンプル部分空間の整合性を保証することを示す。
さらに, 汚染されたデータから得られるWPCA部分空間が, 純粋なデータから回収された部分空間に近接していることを保証する摂動境界を確立する。
さらに、分解点の古典的概念を部分空間値統計に拡張し、WPCAの分解点の下位境界を導出する。
分析の結果,WPCAは緩やかな仮定の下での一貫性を維持しつつ,外れ値に対して強い堅牢性を示すことが示された。
摂動境界と分解点の上部境界の挙動を数値的に説明し、部分空間回復におけるウィンゾライズの有用性を強調するおもちゃの例を提供する。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Distance-Preserving Spatial Representations in Genomic Data [0.0]
単一細胞遺伝子発現データの空間的コンテキストは、多くの下流解析において重要であるが、実際的および技術的制限のため、しばしばアクセスできない。
本稿では、提供された遺伝子発現データに関連する空間座標を再構成できる汎用表現学習・伝達学習フレームワークdp-VAEを提案する。
論文 参考訳(メタデータ) (2024-08-01T21:04:27Z) - A Subspace-Constrained Tyler's Estimator and its Applications to Structure from Motion [14.626050539618861]
低次元部分空間の復元を目的とした部分空間拘束型タイラー推定器(STE)を提案する。
STEはタイラーのM推定器(TME)の融合であり、高速中央部分空間の変種である。
本研究では、基本行列のロバストな推定と外付けカメラの除去という2つの方法で、STEをStructure from Motion (SfM) の文脈に適用する。
論文 参考訳(メタデータ) (2024-04-17T17:39:59Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Empirical Bayes Estimation with Side Information: A Nonparametric Integrative Tweedie Approach [3.334876503466657]
非パラメトリック積分的ツイーディー (NIT) アプローチを開発し、複合推定の精度を高める。
我々は、NITのリスクを理論的に分析し、NITがオラクル次元推定器に収束する速度を確立する。
NITの数値性能は、シミュレーションデータと実データの両方の解析を通して説明され、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-11T00:24:45Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Enhanced Principal Component Analysis under A Collaborative-Robust
Framework [89.28334359066258]
重み学習とロバストな損失を非自明な方法で組み合わせる,一般的な協調ロバスト重み学習フレームワークを提案する。
提案されたフレームワークでは、トレーニング中の重要度を示す適切なサンプルの一部のみがアクティブになり、エラーが大きい他のサンプルは無視されません。
特に、不活性化試料の負の効果はロバスト損失関数によって軽減される。
論文 参考訳(メタデータ) (2021-03-22T15:17:37Z) - Effective Data-aware Covariance Estimator from Compressed Data [63.16042585506435]
本研究では,データ対応重み付きサンプリングベース共分散行列推定器,すなわち DACE を提案し,非バイアス共分散行列推定を行う。
我々は、DACEの優れた性能を示すために、合成データセットと実世界のデータセットの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-10-10T10:10:28Z) - Characterising Bias in Compressed Models [20.901725971127973]
プルーニングと量子化技術は、トップラインメトリクスに無視できない影響で高いレベルの圧縮を実現する。
我々はこのサブセットをCompression Identified Exemplars (CIE)と呼ぶ。
CIEは比較的小さなサブセットですが、モデルにおけるエラーの大きいコントリビュータです。
本稿では,人間のループ監査ツールとして,データセットの抽出可能なサブセットを探索する手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T22:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。