論文の概要: High-Dimensional Feature Selection for Genomic Datasets
- arxiv url: http://arxiv.org/abs/2002.12104v2
- Date: Tue, 18 May 2021 01:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:04:40.167672
- Title: High-Dimensional Feature Selection for Genomic Datasets
- Title(参考訳): ゲノムデータセットの高次元特徴選択
- Authors: Majid Afshar, Hamid Usefi
- Abstract要約: 機械学習とパターン認識における中心的な問題は、最も重要な特徴を認識するプロセスである。
本稿では,まず無関係な特徴を除去し,残った特徴間の相関を検知する特徴選択法(T)を提案する。
DRPTの有効性は、10個の遺伝的データセットに対して、7つの最先端特徴選択法との比較によって検証されている。
- 参考スコア(独自算出の注目度): 3.9499155245102275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central problem in machine learning and pattern recognition is the process
of recognizing the most important features. In this paper, we provide a new
feature selection method (DRPT) that consists of first removing the irrelevant
features and then detecting correlations between the remaining features. Let
$D=[A\mid \mathbf{b}]$ be a dataset, where $\mathbf{b}$ is the class label and
$A$ is a matrix whose columns are the features. We solve $A\mathbf{x} =
\mathbf{b}$ using the least squares method and the pseudo-inverse of $A$. Each
component of $\mathbf{x}$ can be viewed as an assigned weight to the
corresponding column (feature). We define a threshold based on the local maxima
of $\mathbf{x}$ and remove those features whose weights are smaller than the
threshold.
To detect the correlations in the reduced matrix, which we still call $A$, we
consider a perturbation $\tilde A$ of $A$. We prove that correlations are
encoded in $\Delta\mathbf{x}=\mid \mathbf{x} -\tilde{\mathbf{x}}\mid $, where
$\tilde{\mathbf{x}}$ is the least quares solution of
$\tilde A\tilde{\mathbf{x}}=\mathbf{b}$. We cluster features first based on
$\Delta\mathbf{x}$ and then using the entropy of features. Finally, a feature
is selected from each sub-cluster based on its weight and entropy. The
effectiveness of DRPT has been verified by performing a series of comparisons
with seven state-of-the-art feature selection methods over ten genetic datasets
ranging up from 9,117 to 267,604 features. The results show that, over all, the
performance of DRPT is favorable in several aspects compared to each feature
selection algorithm.
\e
- Abstract(参考訳): 機械学習とパターン認識の中心的な問題は、最も重要な特徴を認識するプロセスである。
本稿では,まず無関係な特徴を取り除き,残りの特徴間の相関を検出する新しい特徴選択法(drpt)を提案する。
$d=[a\mid \mathbf{b}]$をデータセットとし、$\mathbf{b}$をクラスラベルとし、$a$を列を特徴とする行列とする。
我々は最小二乗法と$A$の擬逆法を用いて$A\mathbf{x} = \mathbf{b}$を解く。
各々の$\mathbf{x}$の成分は対応する列(機能)に割り当てられた重みと見なすことができる。
我々は$\mathbf{x}$の局所最大値に基づいてしきい値を定義し、しきい値よりも重みが小さい特徴を除去する。
還元行列の相関を検出するために、我々はまだ$a$と呼ぶが、摂動$\tilde a$ を$a$とする。
相関は$\delta\mathbf{x}=\mid \mathbf{x} -\tilde{\mathbf{x}}\mid $, ここで $\tilde{\mathbf{x}}$ は$\tilde a\tilde{\mathbf{x}}=\mathbf{b}$ の最小四分法である。
まず、$\delta\mathbf{x}$に基づいて機能をクラスタし、次に機能のエントロピーを使用します。
最後に、その重みとエントロピーに基づいて各サブクラスタから特徴を選択する。
drptの有効性は、9,117から267,604までの10の遺伝子データセットに対して7つの最先端特徴選択法との比較を行い検証した。
その結果,各特徴選択アルゴリズムと比較して,DRPTの性能はいくつかの面で好ましいことがわかった。
\e である。
関連論文リスト
- The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Solving Dense Linear Systems Faster Than via Preconditioning [1.8854491183340518]
我々のアルゴリズムは$tilde O(n2)$ if $k=O(n0.729)$であることを示す。
特に、我々のアルゴリズムは$tilde O(n2)$ if $k=O(n0.729)$である。
主アルゴリズムはランダム化ブロック座標降下法とみなすことができる。
論文 参考訳(メタデータ) (2023-12-14T12:53:34Z) - SQ Lower Bounds for Learning Mixtures of Linear Classifiers [43.63696593768504]
この問題に対する既知のアルゴリズムは、一様混合の特別な場合であっても、本質的には最善であることを示す。
重要な技術的要素は、独立した関心を持つかもしれない球面設計の新たな構築である。
論文 参考訳(メタデータ) (2023-10-18T10:56:57Z) - Randomized and Deterministic Attention Sparsification Algorithms for
Over-parameterized Feature Dimension [18.57735939471469]
我々は注意問題のスパシフィケーションを考慮する。
超大規模特徴量の場合、文の長さをほぼ線形に縮めることができる。
論文 参考訳(メタデータ) (2023-04-10T05:52:38Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - Block Model Guided Unsupervised Feature Selection [32.21728295212875]
リンクデータに対するグラフ駆動型教師なし特徴選択のための新しい手法を提案する。
まず、グラフ上にブロックモデルを構築し、次に特徴選択にブロックモデルを使用するという、新しいアプローチを取ります。
実験結果から,本手法は実世界の複数の公開データセット上での最先端の手法であることがわかった。
論文 参考訳(メタデータ) (2020-07-05T16:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。