論文の概要: A Pan-cancer Classification Model using Multi-view Feature Selection Method and Ensemble Classifier
- arxiv url: http://arxiv.org/abs/2501.06805v1
- Date: Sun, 12 Jan 2025 13:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 19:20:13.152724
- Title: A Pan-cancer Classification Model using Multi-view Feature Selection Method and Ensemble Classifier
- Title(参考訳): 多視点特徴選択法とアンサンブル分類器を用いたパンカー分類モデル
- Authors: Tareque Mohmud Chowdhury, Farzana Tabassum, Sabrina Islam, Abu Raihan Mostofa Kamal,
- Abstract要約: 我々は,トランスクリプトームデータに特化して機能選択フレームワークを開発する。
我々は,LR,SVM,XGBoostに基づく2つのアンサンブルMLモデルを構築した。
97.11%の精度と0.9996のAUC値で、既存の33種類のがんを分類する手法よりも優れている。
- 参考スコア(独自算出の注目度): 0.046873264197900916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately identifying cancer samples is crucial for precise diagnosis and effective patient treatment. Traditional methods falter with high-dimensional and high feature-to-sample count ratios, which are critical for classifying cancer samples. This study aims to develop a novel feature selection framework specifically for transcriptome data and propose two ensemble classifiers. For feature selection, we partition the transcriptome dataset vertically based on feature types. Then apply the Boruta feature selection process on each of the partitions, combine the results, and apply Boruta again on the combined result. We repeat the process with different parameters of Boruta and prepare the final feature set. Finally, we constructed two ensemble ML models based on LR, SVM and XGBoost classifiers with max voting and averaging probability approach. We used 10-fold cross-validation to ensure robust and reliable classification performance. With 97.11\% accuracy and 0.9996 AUC value, our approach performs better compared to existing state-of-the-art methods to classify 33 types of cancers. A set of 12 types of cancer is traditionally challenging to differentiate between each other due to their similarity in tissue of origin. Our method accurately identifies over 90\% of samples from these 12 types of cancers, which outperforms all known methods presented in existing literature. The gene set enrichment analysis reveals that our framework's selected features have enriched the pathways highly related to cancers. This study develops a feature selection framework to select features highly related to cancer development and leads to identifying different types of cancer samples with higher accuracy.
- Abstract(参考訳): 正確ながんサンプルの同定は、正確な診断と効果的な患者治療に不可欠である。
従来の方法では、高次元および高特徴量とサンプル数の比率が設定され、がんサンプルの分類に欠かせない。
本研究では,トランスクリプトームデータ専用の新しい特徴選択フレームワークを開発し,2つのアンサンブル分類器を提案する。
特徴の選択には,特徴型に基づいたトランスクリプトームデータセットを垂直に分割する。
次に、各分割にボルタ特徴選択プロセスを適用し、結果を組み合わせて、組み合わせた結果に再びボルタを適用する。
Borutaの異なるパラメータでプロセスを繰り返し、最終機能セットを準備します。
最後に,LR,SVM,XGBoost分類器に基づく2つのアンサンブルMLモデルを構築した。
10倍のクロスバリデーションを用いて、堅牢で信頼性の高い分類性能を確保した。
99.11\%の精度と0.9996のAUC値で、既存の33種類のがんを分類する最先端の手法と比較すると、より優れている。
12種類のがんのセットは、起源組織の類似性から、互いに区別することが伝統的に困難である。
本手法は,これらの12種類のがんの試料の90%以上を正確に同定し,既存の文献で示されるすべての既知の方法より優れていた。
遺伝子セットの富化分析により、我々のフレームワークが選択した特徴が、がんに強く関連している経路を豊かにしていることが明らかとなった。
本研究は, がん発生に高い関連性を有する特徴を選別する特徴選択フレームワークを開発し, 高い精度で異なる種類のがんサンプルを同定する。
関連論文リスト
- Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification, An Interpretable Multi-Omics Approach [36.92842246372894]
Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化サンプルを利用するディープラーニングフレームワークである。
グラフに基づく深層学習とマルチオミクスデータを統合することにより,提案手法は頑健な予測性能と解釈可能性を示す。
論文 参考訳(メタデータ) (2025-03-29T02:14:05Z) - A Comparative Analysis of Image Descriptors for Histopathological Classification of Gastric Cancer [39.69192026190426]
胃がんは世界で5番目に多く、致死率も4番目に高く、5年生存率は約20%である。
本研究は, 組織像を健康・癌カテゴリに分類するために, 機械学習と深層学習技術を用いた。
論文 参考訳(メタデータ) (2025-03-21T12:46:22Z) - Biomarker based Cancer Classification using an Ensemble with Pre-trained Models [2.2436844508175224]
マルチクラス分類タスクに対して,事前学習したハイパーファストモデル,XGBoost,LightGBMを組み合わせた新しいアンサンブルモデルを提案する。
我々はメタトレーニングしたハイパーファストモデルを用いてがんの分類を行い、AUCは0.9929である。
また,事前学習したハイパーファストモデル,XGBoost,LightGBMを多クラス分類タスクに組み合わせた新しいアンサンブルモデルを提案し,精度を漸進的に向上させる(0.9464)。
論文 参考訳(メタデータ) (2024-06-14T14:43:59Z) - Adaptive Fusion of Radiomics and Deep Features for Lung Adenocarcinoma Subtype Recognition [17.909368834829156]
肺腺癌 (LUAD) は低用量CT検診技術が出現して以来, 発見が進んでいる。
臨床的には, 浸潤性LUAD (pre-invasive LUAD) は定期的なフォローアップケアを必要とするが, 浸潤性LUAD (invasive LUAD) は癌亜型に基づく適切な肺癌切除を即時行う必要がある。
論文 参考訳(メタデータ) (2023-08-27T03:54:55Z) - DEDUCE: Multi-head attention decoupled contrastive learning to discover cancer subtypes based on multi-omics data [7.049723871585993]
マルチオミクスのがんデータを解析するための教師なしコントラスト学習のためのモデルDDUCEを提案する。
このモデルは教師なしのSMAEを採用し、マルチオミクスデータからコンテキストの特徴や長距離依存を深く抽出することができる。
サブタイプは、マルチオミクスデータの特徴空間とサンプル空間の両方におけるサンプル間の類似性を計算することでクラスタ化される。
論文 参考訳(メタデータ) (2023-07-09T00:53:23Z) - Improving Precancerous Case Characterization via Transformer-based
Ensemble Learning [31.891340667123124]
自然言語処理のがん病理学報告への応用は、がん症例の検出に焦点が当てられている。
先天性腺腫のキャラクタリゼーションの改善は、早期がんの検出と予防のための診断試験の開発を支援する。
以上の結果から,NLPを用いて早期がん予防のための診断試験の開発を促進できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-10T00:06:28Z) - Gene selection from microarray expression data: A Multi-objective PSO
with adaptive K-nearest neighborhood [0.0]
本稿では,遺伝子発現データを用いたヒト癌疾患の分類問題について論じる。
マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T04:22:10Z) - A Comparative Study of Gastric Histopathology Sub-size Image
Classification: from Linear Regression to Visual Transformer [25.66209350064889]
胃がんは世界で5番目に多いがんである。
コンピュータ技術は、胃癌の診断で医師を支援するために急速に進歩している。
論文 参考訳(メタデータ) (2022-05-25T15:13:08Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Topological Data Analysis of copy number alterations in cancer [70.85487611525896]
癌ゲノム情報に含まれる情報を新しいトポロジに基づくアプローチで捉える可能性を探る。
本手法は, 癌体性遺伝データに有意な低次元表現を抽出する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-22T17:31:23Z) - Sickle-cell disease diagnosis support selecting the most appropriate
machinelearning method: Towards a general and interpretable approach for
cellmorphology analysis from microscopy images [0.0]
本稿では,最先端技術に基づく分類手法と特徴の選択手法を提案する。
当科では,他の研究例に応用できる病原体疾患のサンプルを用いて検討した。
論文 参考訳(メタデータ) (2020-10-09T11:46:38Z) - Harvesting, Detecting, and Characterizing Liver Lesions from Large-scale
Multi-phase CT Data via Deep Dynamic Texture Learning [24.633802585888812]
ダイナミックコントラストCT(Dynamic contrast Computed Tomography)のための完全自動多段階肝腫瘍評価フレームワークを提案する。
本システムでは, 腫瘍提案検出, 腫瘍採取, 原発部位の選択, 深部テクスチャに基づく腫瘍評価の4段階からなる。
論文 参考訳(メタデータ) (2020-06-28T19:55:34Z) - The scalable Birth-Death MCMC Algorithm for Mixed Graphical Model
Learning with Application to Genomic Data Integration [0.0]
本稿では,異なるタイプのマルチオミックデータを解析するための混合グラフィカルモデルを提案する。
モデル選択結果の計算効率と精度の両面で,本手法が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-08T16:34:58Z) - Analysis of ensemble feature selection for correlated high-dimensional
RNA-Seq cancer data [0.24366811507669126]
本研究は、関連する変数の発見のための2つのアプローチを比較する。
最も有益な特徴は、4つの特徴選択アルゴリズムを用いて識別される。
残念なことに、特徴選択アルゴリズムのアンサンブルから得られた特徴集合に基づいて構築されたモデルは、個々のアルゴリズムから得られた特徴集合に基づいて開発されたモデルよりは良くなかった。
論文 参考訳(メタデータ) (2020-04-28T20:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。