論文の概要: Ensemble feature selection with clustering for analysis of
high-dimensional, correlated clinical data in the search for Alzheimer's
disease biomarkers
- arxiv url: http://arxiv.org/abs/2207.02380v1
- Date: Wed, 6 Jul 2022 01:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:47:51.631388
- Title: Ensemble feature selection with clustering for analysis of
high-dimensional, correlated clinical data in the search for Alzheimer's
disease biomarkers
- Title(参考訳): アルツハイマー病バイオマーカー探索における高次元相関臨床データ解析のためのクラスタリングを用いたアンサンブル特徴選択
- Authors: Annette Spooner, Gelareh Mohammadi, Perminder S. Sachdev, Henry
Brodaty, Arcot Sowmya (for the Sydney Memory and Ageing Study and the
Alzheimer's Disease Neuroimaging Initiative)
- Abstract要約: 多変量特徴セレクタから特徴選択アンサンブルを作成するための新しいフレームワークを提案する。
我々は,事前処理段階における集合的階層的クラスタリングを用いて,相関した特徴群が生み出すバイアスを考慮に入れた。
これらの手法はアルツハイマー病(AD)の研究から現実の2つのデータセットに適用された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Healthcare datasets often contain groups of highly correlated features, such
as features from the same biological system. When feature selection is applied
to these datasets to identify the most important features, the biases inherent
in some multivariate feature selectors due to correlated features make it
difficult for these methods to distinguish between the important and irrelevant
features and the results of the feature selection process can be unstable.
Feature selection ensembles, which aggregate the results of multiple individual
base feature selectors, have been investigated as a means of stabilising
feature selection results, but do not address the problem of correlated
features. We present a novel framework to create feature selection ensembles
from multivariate feature selectors while taking into account the biases
produced by groups of correlated features, using agglomerative hierarchical
clustering in a pre-processing step. These methods were applied to two
real-world datasets from studies of Alzheimer's disease (AD), a progressive
neurodegenerative disease that has no cure and is not yet fully understood. Our
results show a marked improvement in the stability of features selected over
the models without clustering, and the features selected by these models are in
keeping with the findings in the AD literature.
- Abstract(参考訳): 医療データセットは、しばしば、同じ生物学的システムの特徴など、高度に相関した特徴のグループを含む。
これらのデータセットに特徴選択を適用して最も重要な特徴を特定すると、相関した特徴による多変量特徴セレクタ固有のバイアスにより、重要な特徴と無関係な特徴を区別することが難しくなり、特徴選択プロセスの結果が不安定になる。
複数の基本特徴選択器の結果を集約した特徴選択アンサンブルを,特徴選択結果を安定化する手段として検討したが,相関特徴の問題には対処しなかった。
本稿では,多変量特徴セレクタから特徴選択アンサンブルを作成するための新しいフレームワークを提案する。
これらの方法は、進行性神経変性疾患であるアルツハイマー病(ad)の研究から得られた2つの現実世界のデータセットに適用され、まだ完全には理解されていない。
その結果,クラスタリングをしないモデルで選択した特徴の安定性は著しく向上し,これらのモデルで選択した特徴はAD文献の知見と一致していることがわかった。
関連論文リスト
- Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Ensemble feature selection with data-driven thresholding for Alzheimer's
disease biomarker discovery [0.0]
この研究は複数のデータ駆動しきい値を開発し、アンサンブル機能セレクタで関連する特徴を自動的に識別する。
臨床データへのこれらの手法の適用性を実証するため、2つの現実世界のアルツハイマー病(AD)研究のデータに適用した。
論文 参考訳(メタデータ) (2022-07-05T05:50:51Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - Deep Unsupervised Feature Selection by Discarding Nuisance and
Correlated Features [7.288137686773523]
現代のデータセットには、相関した特徴とニュアンスな特徴の大きなサブセットが含まれている。
多数のニュアンス特徴が存在する場合、ラプラシアンは選択された特徴の部分集合上で計算されなければならない。
相関する特徴に対処するためにオートエンコーダアーキテクチャを使用し、選択した特徴のサブセットからデータを再構成するように訓練した。
論文 参考訳(メタデータ) (2021-10-11T14:26:13Z) - ASMFS: Adaptive-Similarity-based Multi-modality Feature Selection for
Classification of Alzheimer's Disease [37.34130395221716]
特徴選択と局所類似性学習を同時に行う新しい多モード特徴選択法を提案する。
本手法の有効性は,アルツハイマー病神経画像イニシアチブデータセットを用いて実験的に検証した。
論文 参考訳(メタデータ) (2020-10-16T06:53:27Z) - Analysis of ensemble feature selection for correlated high-dimensional
RNA-Seq cancer data [0.24366811507669126]
本研究は、関連する変数の発見のための2つのアプローチを比較する。
最も有益な特徴は、4つの特徴選択アルゴリズムを用いて識別される。
残念なことに、特徴選択アルゴリズムのアンサンブルから得られた特徴集合に基づいて構築されたモデルは、個々のアルゴリズムから得られた特徴集合に基づいて開発されたモデルよりは良くなかった。
論文 参考訳(メタデータ) (2020-04-28T20:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。