論文の概要: Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection
- arxiv url: http://arxiv.org/abs/2012.14595v1
- Date: Tue, 29 Dec 2020 04:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 20:46:59.957351
- Title: Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection
- Title(参考訳): 教師なし特徴選択のための$l_{2,p}$-Norm正規化によるスパースPCA
- Authors: Zhengxin Li, Feiping Nie, Jintang Bian, Xuelong Li
- Abstract要約: 再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
- 参考スコア(独自算出の注目度): 138.97647716793333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of data mining, how to deal with high-dimensional data is an
inevitable problem. Unsupervised feature selection has attracted more and more
attention because it does not rely on labels. The performance of spectral-based
unsupervised methods depends on the quality of constructed similarity matrix,
which is used to depict the intrinsic structure of data. However, real-world
data contain a large number of noise samples and features, making the
similarity matrix constructed by original data cannot be completely reliable.
Worse still, the size of similarity matrix expands rapidly as the number of
samples increases, making the computational cost increase significantly.
Inspired by principal component analysis, we propose a simple and efficient
unsupervised feature selection method, by combining reconstruction error with
$l_{2,p}$-norm regularization. The projection matrix, which is used for feature
selection, is learned by minimizing the reconstruction error under the sparse
constraint. Then, we present an efficient optimization algorithm to solve the
proposed unsupervised model, and analyse the convergence and computational
complexity of the algorithm theoretically. Finally, extensive experiments on
real-world data sets demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): データマイニングの分野では、高次元データを扱う方法が避けられない問題である。
教師なしの機能選択はラベルに依存しないため、ますます注目を集めている。
スペクトルベースの教師なし手法の性能は、データ固有の構造を記述するために使用される構築された類似性行列の品質に依存する。
しかし、現実世界のデータには多くのノイズサンプルと特徴が含まれており、元のデータで構築された類似性行列は完全に信頼できない。
さらに悪いことに、サンプル数が増えるにつれて類似度行列のサイズが急速に拡大し、計算コストが大幅に増加する。
主成分分析に着想を得て, 再構成誤差を$l_{2,p}$-norm正規化と組み合わせ, 単純かつ効率的な特徴選択法を提案する。
特徴選択に用いられる投影行列は、スパース制約の下で再構成誤差を最小化することにより学習される。
そして,提案した教師なしモデルの解法と,アルゴリズムの収束と計算の複雑さを理論的に解析する効率的な最適化アルゴリズムを提案する。
最後に,実世界のデータセットに関する広範囲な実験を行い,提案手法の有効性を示す。
関連論文リスト
- Unsupervised Feature Selection Algorithm Based on Graph Filtering and Self-representation [5.840228332438659]
グラフフィルタリングと自己表現に基づく教師なし特徴選択アルゴリズムを提案する。
提案した目的関数を効果的に解くために反復アルゴリズムを適用した。
論文 参考訳(メタデータ) (2024-11-01T00:00:08Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Multi-view Sparse Laplacian Eigenmaps for nonlinear Spectral Feature
Selection [1.6853711292804476]
高次元データセットの複雑さは、機械学習モデルに重大な課題をもたらす。
これらの課題に対処するためには、データの本質的構造を捉えた機能の情報的サブセットを特定することが不可欠である。
本研究では,マルチビュー・スパース・ラプラシアン固有写像(MSLE)を特徴選択のために提案する。
論文 参考訳(メタデータ) (2023-07-29T06:23:51Z) - Linearly-scalable learning of smooth low-dimensional patterns with
permutation-aided entropic dimension reduction [0.0]
多くのデータサイエンス応用において、高次元データセットから適切に順序付けられた滑らかな低次元データパターンを抽出することが目的である。
本研究では, ユークリッドの滑らか度をパターン品質基準として選択する場合, これらの問題を数値的に効率的に解けることを示す。
論文 参考訳(メタデータ) (2023-06-17T08:03:24Z) - Recovering Simultaneously Structured Data via Non-Convex Iteratively
Reweighted Least Squares [0.8702432681310401]
線形観測から多種多様低次元構造に固執するデータを復元する新しいアルゴリズムを提案する。
IRLS法は,低/複合状態の計測に好適であることを示す。
論文 参考訳(メタデータ) (2023-06-08T06:35:47Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - A Local Similarity-Preserving Framework for Nonlinear Dimensionality
Reduction with Neural Networks [56.068488417457935]
本稿では,Vec2vecという新しい局所非線形手法を提案する。
ニューラルネットワークを訓練するために、マトリックスの近傍類似度グラフを構築し、データポイントのコンテキストを定義します。
8つの実データセットにおけるデータ分類とクラスタリングの実験により、Vec2vecは統計仮説テストにおける古典的な次元削減法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-03-10T23:10:47Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。