論文の概要: Classification of high-dimensional data with spiked covariance matrix
structure
- arxiv url: http://arxiv.org/abs/2110.01950v1
- Date: Tue, 5 Oct 2021 11:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:22:14.345610
- Title: Classification of high-dimensional data with spiked covariance matrix
structure
- Title(参考訳): スパイク共分散行列構造を用いた高次元データの分類
- Authors: Yin-Jen Chen, Minh Tang
- Abstract要約: 我々は高次元データの分類問題を$n$で研究し、$p$の特徴を観察する。
本稿では,まず,次元還元空間における分類に先立って特徴ベクトルの次元還元を行う適応型分類器を提案する。
結果の分類器は、$n rightarrow infty$ および $s sqrtn-1 ln p rightarrow 0$ のときにベイズ最適であることが示される。
- 参考スコア(独自算出の注目度): 0.2741266294612775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the classification problem for high-dimensional data with $n$
observations on $p$ features where the $p \times p$ covariance matrix $\Sigma$
exhibits a spiked eigenvalues structure and the vector $\zeta$, given by the
difference between the whitened mean vectors, is sparse with sparsity at most
$s$. We propose an adaptive classifier (adaptive with respect to the sparsity
$s$) that first performs dimension reduction on the feature vectors prior to
classification in the dimensionally reduced space, i.e., the classifier
whitened the data, then screen the features by keeping only those corresponding
to the $s$ largest coordinates of $\zeta$ and finally apply Fisher linear
discriminant on the selected features. Leveraging recent results on entrywise
matrix perturbation bounds for covariance matrices, we show that the resulting
classifier is Bayes optimal whenever $n \rightarrow \infty$ and $s \sqrt{n^{-1}
\ln p} \rightarrow 0$. Experimental results on real and synthetic data sets
indicate that the proposed classifier is competitive with existing
state-of-the-art methods while also selecting a smaller number of features.
- Abstract(参考訳): p$ について n$ の観測値を持つ高次元データの分類問題について検討する。 $p \times p$ 共分散行列 $\sigma$ はスパイクした固有値構造を示し、ベクトル $\zeta$ は白色平均ベクトルの差によって与えられるが、最大$s$ はスパーシティでスパースである。
適応型分類器(空間の空間の分類に先立って特徴ベクトルの次元還元を行う)を提案する。つまり、分類器はデータを白くし、次に、$\zeta$の最大座標に対応するものだけを保持して特徴を遮蔽し、最終的に選択した特徴に対してフィッシャー線形判別法を適用する。
共分散行列に対するエントリワイズ行列摂動境界に関する最近の結果を利用して、n \rightarrow \infty$ と $s \sqrt{n^{-1} \ln p} \rightarrow 0$ のとき、結果の分類器はベイズ最適であることを示した。
実データおよび合成データを用いた実験結果から,提案手法は既存手法と競合する一方で,少数の特徴も選択できることがわかった。
関連論文リスト
- Universality of max-margin classifiers [10.797131009370219]
非ガウス的特徴に対する誤分類誤差の高次元普遍性と大域化写像の役割について検討する。
特に、オーバーパラメトリゼーションしきい値と一般化誤差はより単純なモデルで計算できる。
論文 参考訳(メタデータ) (2023-09-29T22:45:56Z) - Self-Directed Linear Classification [50.659479930171585]
オンライン分類では、学習者は、誤りの総数を最小限に抑えるために、オンラインでラベルを予測することを目的としている。
そこで本研究では,予測順序の選択能力について検討し,最低次学習とランダム次学習の分離を初めて確立する。
論文 参考訳(メタデータ) (2023-08-06T15:38:44Z) - Repeated Observations for Classification [0.2676349883103404]
繰り返し観測を行った結果,非パラメトリック分類の問題について検討した。
本分析では, 名目密度によるロバスト検出, プロトタイプ分類, 線形変換, 線形分類, スケーリングなどのモデルについて検討する。
論文 参考訳(メタデータ) (2023-07-19T10:50:36Z) - Leverage Score Sampling for Tensor Product Matrices in Input Sparsity
Time [54.65688986250061]
我々は,$q$-foldカラムワイドテンソル積の$q$行列に対応するグラム行列を近似するための入力空間時間サンプリングアルゴリズムを提案する。
我々のサンプリング技術は、合計時間でデータセット$X$に同時に適用できる$q$部分相関ランダムプロジェクションのコレクションに依存している。
論文 参考訳(メタデータ) (2022-02-09T15:26:03Z) - Optimal N-ary ECOC Matrices for Ensemble Classification [1.3561997774592662]
アンサンブル分類法における誤り訂正出力符号(ECOC)の新たな構成について述べる。
任意の素数$N$が与えられたとき、この決定論的構成は基底-$N$対称二乗行列を$M$で生成する。
論文 参考訳(メタデータ) (2021-10-05T16:50:15Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - On the Adversarial Robustness of LASSO Based Feature Selection [72.54211869067979]
検討されたモデルでは、悪意のある敵がデータセット全体を観察し、レスポンス値やフィーチャーマトリックスを慎重に修正する。
両レベルの最適化問題として、敵の修正戦略を定式化する。
合成および実データを用いた数値的な例は,本手法が効率的かつ効果的であることを示している。
論文 参考訳(メタデータ) (2020-10-20T05:51:26Z) - Conditional Uncorrelation and Efficient Non-approximate Subset Selection
in Sparse Regression [72.84177488527398]
相関性の観点からスパース回帰を考察し,条件付き非相関式を提案する。
提案手法により、計算複雑性は、スパース回帰における各候補部分集合に対して$O(frac16k3+mk2+mkd)$から$O(frac16k3+frac12mk2)$に削減される。
論文 参考訳(メタデータ) (2020-09-08T20:32:26Z) - Truncated Linear Regression in High Dimensions [26.41623833920794]
truncated linear regression において、従属変数 $(A_i, y_i)_i$ は $y_i= A_irm T cdot x* + eta_i$ は固定された未知の興味ベクトルである。
目標は、$A_i$とノイズ分布に関するいくつかの好ましい条件の下で$x*$を回復することである。
我々は、$k$-sparse $n$-dimensional vectors $x*$ from $m$ truncated sample。
論文 参考訳(メタデータ) (2020-07-29T00:31:34Z) - Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。
本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-02-08T21:06:02Z) - The generalization error of max-margin linear classifiers: Benign
overfitting and high dimensional asymptotics in the overparametrized regime [11.252856459394854]
現代の機械学習分類器は、トレーニングセットに消滅する分類誤差を示すことが多い。
これらの現象に触発され、線形分離可能なデータに対する高次元の最大マージン分類を再検討する。
論文 参考訳(メタデータ) (2019-11-05T00:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。