論文の概要: Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection
- arxiv url: http://arxiv.org/abs/2012.14595v1
- Date: Tue, 29 Dec 2020 04:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:46:59.957351
- Title: Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection
- Title(参考訳): 教師なし特徴選択のための$l_{2,p}$-Norm正規化によるスパースPCA
- Authors: Zhengxin Li, Feiping Nie, Jintang Bian, Xuelong Li
- Abstract要約: 再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
- 参考スコア(独自算出の注目度): 138.97647716793333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of data mining, how to deal with high-dimensional data is an
inevitable problem. Unsupervised feature selection has attracted more and more
attention because it does not rely on labels. The performance of spectral-based
unsupervised methods depends on the quality of constructed similarity matrix,
which is used to depict the intrinsic structure of data. However, real-world
data contain a large number of noise samples and features, making the
similarity matrix constructed by original data cannot be completely reliable.
Worse still, the size of similarity matrix expands rapidly as the number of
samples increases, making the computational cost increase significantly.
Inspired by principal component analysis, we propose a simple and efficient
unsupervised feature selection method, by combining reconstruction error with
$l_{2,p}$-norm regularization. The projection matrix, which is used for feature
selection, is learned by minimizing the reconstruction error under the sparse
constraint. Then, we present an efficient optimization algorithm to solve the
proposed unsupervised model, and analyse the convergence and computational
complexity of the algorithm theoretically. Finally, extensive experiments on
real-world data sets demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): データマイニングの分野では、高次元データを扱う方法が避けられない問題である。
教師なしの機能選択はラベルに依存しないため、ますます注目を集めている。
スペクトルベースの教師なし手法の性能は、データ固有の構造を記述するために使用される構築された類似性行列の品質に依存する。
しかし、現実世界のデータには多くのノイズサンプルと特徴が含まれており、元のデータで構築された類似性行列は完全に信頼できない。
さらに悪いことに、サンプル数が増えるにつれて類似度行列のサイズが急速に拡大し、計算コストが大幅に増加する。
主成分分析に着想を得て, 再構成誤差を$l_{2,p}$-norm正規化と組み合わせ, 単純かつ効率的な特徴選択法を提案する。
特徴選択に用いられる投影行列は、スパース制約の下で再構成誤差を最小化することにより学習される。
そして,提案した教師なしモデルの解法と,アルゴリズムの収束と計算の複雑さを理論的に解析する効率的な最適化アルゴリズムを提案する。
最後に,実世界のデータセットに関する広範囲な実験を行い,提案手法の有効性を示す。
関連論文リスト
- Random Graph Embedding and Joint Sparse Regularization for Multi-label
Feature Selection [0.0]
提案モデルでは,結合制約最適化問題を解くことにより,最も関連性の高い変数を選択することができる。
多様体の正則化では、結合構造に基づいてランダムウォーク戦略を実行し、近傍グラフを構築する。
実世界のデータセットを用いた実験により,本手法の総合的な性能は従来の手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-04-13T15:06:12Z) - Incremental Unsupervised Feature Selection for Dynamic Incomplete
Multi-view Data [16.48538951608735]
実際のアプリケーションでは、マルチビューデータは不完全であることが多い。
本稿では,不完全なマルチビューストリーミングデータに対して,インクリメンタルな不完全なマルチビュー非教師付き特徴選択法(I$2$MUFS)を提案する。
論文 参考訳(メタデータ) (2022-04-05T16:29:39Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Analysis of Truncated Orthogonal Iteration for Sparse Eigenvector
Problems [78.95866278697777]
本研究では,多元的固有ベクトルを分散制約で同時に計算するTruncated Orthogonal Iterationの2つの変種を提案する。
次に,我々のアルゴリズムを適用して,幅広いテストデータセットに対するスパース原理成分分析問題を解く。
論文 参考訳(メタデータ) (2021-03-24T23:11:32Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。