論文の概要: Feature Selection via Robust Weighted Score for High Dimensional Binary
Class-Imbalanced Gene Expression Data
- arxiv url: http://arxiv.org/abs/2401.12667v1
- Date: Tue, 23 Jan 2024 11:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:53:37.337712
- Title: Feature Selection via Robust Weighted Score for High Dimensional Binary
Class-Imbalanced Gene Expression Data
- Title(参考訳): 高次元2値クラス不均衡遺伝子発現データに対するロバスト重み付けスコアによる特徴選択
- Authors: Zardad Khan, Amjad Ali, Saeed Aldahmani
- Abstract要約: 非平衡データに対する頑健な重み付けスコア (ROWSU) は, クラス不均衡問題を用いた高次元遺伝子発現二項分類における最も識別性の高い特徴を選択するために提案される。
ROWSU法の性能を6ドルの遺伝子発現データセットで評価した。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, a robust weighted score for unbalanced data (ROWSU) is
proposed for selecting the most discriminative feature for high dimensional
gene expression binary classification with class-imbalance problem. The method
addresses one of the most challenging problems of highly skewed class
distributions in gene expression datasets that adversely affect the performance
of classification algorithms. First, the training dataset is balanced by
synthetically generating data points from minority class observations. Second,
a minimum subset of genes is selected using a greedy search approach. Third, a
novel weighted robust score, where the weights are computed by support vectors,
is introduced to obtain a refined set of genes. The highest-scoring genes based
on this approach are combined with the minimum subset of genes selected by the
greedy search approach to form the final set of genes. The novel method ensures
the selection of the most discriminative genes, even in the presence of skewed
class distribution, thus improving the performance of the classifiers. The
performance of the proposed ROWSU method is evaluated on $6$ gene expression
datasets. Classification accuracy and sensitivity are used as performance
metrics to compare the proposed ROWSU algorithm with several other
state-of-the-art methods. Boxplots and stability plots are also constructed for
a better understanding of the results. The results show that the proposed
method outperforms the existing feature selection procedures based on
classification performance from k nearest neighbours (kNN) and random forest
(RF) classifiers.
- Abstract(参考訳): 本稿では, クラス不均衡問題を伴う高次元遺伝子発現二分分類の最も識別的な特徴を選択するために, ロバスト重み付けスコア(rowsu)を提案する。
この手法は、分類アルゴリズムの性能に悪影響を及ぼす遺伝子表現データセットにおいて、高度に歪んだクラス分布の最も難しい問題の一つに対処する。
まず、マイノリティクラス観測からデータポイントを合成して、トレーニングデータセットのバランスをとる。
次に、greedy searchアプローチを用いて、最小限の遺伝子サブセットを選択する。
第3に、支持ベクトルによって重みが計算される新しい重み付きロバストスコアを導入し、改良された遺伝子群を得る。
このアプローチに基づく最上位の遺伝子は、greedy searchアプローチによって選択された遺伝子の最小サブセットと組み合わせて、最終的な遺伝子セットを形成する。
この方法により、スキュードクラス分布が存在する場合でも、最も識別性の高い遺伝子の選択が保証され、分類器の性能が向上する。
提案するrowsu法の性能は6ドルの遺伝子発現データセットで評価される。
分類精度と感度は、提案したROWSUアルゴリズムといくつかの最先端手法を比較するために性能指標として用いられる。
ボックスプロットや安定性プロットも、結果の理解を深めるために構築されている。
その結果, 提案手法は, k 近辺 (kNN) とランダム森林 (RF) 分類器の分類性能に基づいて, 既存の特徴選択法よりも優れていた。
関連論文リスト
- Exhaustive Exploitation of Nature-inspired Computation for Cancer Screening in an Ensemble Manner [20.07173196364489]
本研究では、遺伝子発現データからがん分類のためのアンサンブル学習を改善するために、進化最適化逆アンサンブル学習(EODE)と呼ばれるフレームワークを提案する。
各種癌種を含む35の遺伝子発現ベンチマークデータセットを対象に実験を行った。
論文 参考訳(メタデータ) (2024-04-06T08:07:48Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Fairness via Adversarial Attribute Neighbourhood Robust Learning [49.93775302674591]
本稿では,分類ヘッドを損なうために,UnderlineRobust underlineAdversarial underlineAttribute underlineNeighbourhood (RAAN)損失を原則として提案する。
論文 参考訳(メタデータ) (2022-10-12T23:39:28Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Hybrid gene selection approach using XGBoost and multi-objective genetic
algorithm for cancer classification [6.781877756322586]
マイクロアレイデータセットにおける癌分類のための極勾配増強(XGBoost)と多目的最適化遺伝的アルゴリズム(XGBoost-MOGA)を組み合わせた2段階遺伝子選択手法を提案する。
XGBoost-MOGAは、精度、Fスコア、精度、リコールなどの様々な評価基準の観点から、従来の最先端アルゴリズムよりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2021-05-30T03:43:22Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - A Novel Community Detection Based Genetic Algorithm for Feature
Selection [3.8848561367220276]
著者らは3つのステップで機能するコミュニティ検出に基づく遺伝的アルゴリズムを提案する。
提案手法の性能から,9つのベンチマーク分類問題を解析した。
論文 参考訳(メタデータ) (2020-08-08T15:39:30Z) - A New Gene Selection Algorithm using Fuzzy-Rough Set Theory for Tumor
Classification [0.0]
本稿では,ファジィ・ルー集合の識別行列を用いた新しい遺伝子選択手法を提案する。
提案手法は、遺伝子選択結果を改善するために、同一のクラスラベルと異なるクラスラベルを持つインスタンスの類似性を考慮に入れている。
実験により, この手法は最先端の手法に比べて効率が良いことを示した。
論文 参考訳(メタデータ) (2020-03-26T13:43:25Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。