論文の概要: Distance-based mutual congestion feature selection with genetic algorithm for high-dimensional medical datasets
- arxiv url: http://arxiv.org/abs/2407.15611v1
- Date: Mon, 22 Jul 2024 13:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:01:15.050820
- Title: Distance-based mutual congestion feature selection with genetic algorithm for high-dimensional medical datasets
- Title(参考訳): 高次元医用データセットのための遺伝的アルゴリズムを用いた距離ベース相互混雑特徴の選択
- Authors: Hossein Nematzadeh, Joseph Mani, Zahra Nematzadeh, Ebrahim Akbari, Radziah Mohamad,
- Abstract要約: あらゆるデータ分布に適用可能な、普遍的に最適な特徴選択方法はありません。
本稿では, 応答変数の特徴値と観測値の分布を考慮したフィルタ手法として, 距離に基づくMutual Congestion (DMC)を提案する。
ハイブリッドDMC-GAwARはバイナリ分類データセットに適用でき、最近の研究よりもその優位性を示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 2.6037922505725675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feature selection poses a challenge in small-sample high-dimensional datasets, where the number of features exceeds the number of observations, as seen in microarray, gene expression, and medical datasets. There isn't a universally optimal feature selection method applicable to any data distribution, and as a result, the literature consistently endeavors to address this issue. One recent approach in feature selection is termed frequency-based feature selection. However, existing methods in this domain tend to overlook feature values, focusing solely on the distribution in the response variable. In response, this paper introduces the Distance-based Mutual Congestion (DMC) as a filter method that considers both the feature values and the distribution of observations in the response variable. DMC sorts the features of datasets, and the top 5% are retained and clustered by KMeans to mitigate multicollinearity. This is achieved by randomly selecting one feature from each cluster. The selected features form the feature space, and the search space for the Genetic Algorithm with Adaptive Rates (GAwAR) will be approximated using this feature space. GAwAR approximates the combination of the top 10 features that maximizes prediction accuracy within a wrapper scheme. To prevent premature convergence, GAwAR adaptively updates the crossover and mutation rates. The hybrid DMC-GAwAR is applicable to binary classification datasets, and experimental results demonstrate its superiority over some recent works. The implementation and corresponding data are available at https://github.com/hnematzadeh/DMC-GAwAR
- Abstract(参考訳): 小型の高次元データセットでは、マイクロアレイ、遺伝子発現、医療データセットに見られるような、特徴の数が観察数を超える。
あらゆるデータ分布に適用可能な、普遍的に最適な特徴選択方法はありません。
最近の特徴選択の1つのアプローチは周波数ベースの特徴選択である。
しかし、この領域の既存のメソッドは、応答変数の分布にのみ焦点をあてて、特徴値を見落としてしまう傾向がある。
そこで本稿では,DMC (Distance-based Mutual Congestion) を特徴値と応答変数の観測分布の両方を考慮したフィルタ手法として紹介する。
DMCはデータセットの特徴をソートし、上位5%はKMeansによって保持され、クラスタ化され、マルチコリニアリティが軽減される。
これは各クラスタから1つの機能をランダムに選択することで実現される。
選択された特徴は特徴空間を形成し、適応レート付き遺伝的アルゴリズム(GAwAR)の探索空間はこの特徴空間を用いて近似する。
GAwARは、ラッパースキーム内の予測精度を最大化するトップ10の機能の組み合わせを近似する。
早期収束を防ぐため、GAwARはクロスオーバーと突然変異率を適応的に更新する。
ハイブリッドDMC-GAwARはバイナリ分類データセットに適用でき、最近の研究よりもその優位性を示す実験結果が得られた。
実装と対応するデータはhttps://github.com/hnematzadeh/DMC-GAwARで公開されている。
関連論文リスト
- Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Graph Fourier MMD for Signals on Graphs [67.68356461123219]
本稿では,グラフ上の分布と信号の間の新しい距離を提案する。
GFMMDは、グラフ上で滑らかであり、期待差を最大化する最適な目撃関数によって定義される。
グラフベンチマークのデータセットと単一セルRNAシークエンシングデータ解析について紹介する。
論文 参考訳(メタデータ) (2023-06-05T00:01:17Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Subspace Learning for Feature Selection via Rank Revealing QR
Factorization: Unsupervised and Hybrid Approaches with Non-negative Matrix
Factorization and Evolutionary Algorithm [0.0]
ランク明示QR(RRQR)因子化は、新しい教師なし特徴選択技術として最も情報性の高い特徴を得るのに活用される。
フィルタベース手法としてRRQRとラッパーベース手法として遺伝的アルゴリズムを組み合わせたハイブリッド特徴選択アルゴリズムを提案する。
提案アルゴリズムは、教師付き、教師なし、および半教師付き設定における最先端の特徴選択アルゴリズムと比較した場合、信頼性と堅牢性を示す。
論文 参考訳(メタデータ) (2022-10-02T04:04:47Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Optimal Data Selection: An Online Distributed View [61.31708750038692]
この問題のオンライン版と分散版のアルゴリズムを開発する。
ランダム選択法は, ランダム選択法よりも5~20%高い性能を示した。
ImageNet と MNIST の学習タスクにおいて、我々の選択方法はランダム選択よりも5-20% 高い性能を示した。
論文 参考訳(メタデータ) (2022-01-25T18:56:16Z) - A Supervised Feature Selection Method For Mixed-Type Data using
Density-based Feature Clustering [1.3048920509133808]
本稿では、密度ベース特徴クラスタリング(SFSDFC)を用いた教師付き特徴選択法を提案する。
SFSDFCは、新しい密度に基づくクラスタリング法を用いて、特徴空間を不連続な特徴クラスタの集合に分解する。
そして、これらの特徴クラスタから最小限の冗長性を持つ重要な特徴のサブセットを得るために、効果的な特徴選択戦略を採用する。
論文 参考訳(メタデータ) (2021-11-10T15:05:15Z) - Cervical Cytology Classification Using PCA & GWO Enhanced Deep Features
Selection [1.990876596716716]
子宮頸癌は世界でも最も致命的かつ一般的な疾患の1つである。
ディープラーニングと特徴選択を利用した完全自動化フレームワークを提案する。
このフレームワークは3つの公開ベンチマークデータセットで評価されている。
論文 参考訳(メタデータ) (2021-06-09T08:57:22Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization
Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。
本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-08T02:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。