論文の概要: A Pan-cancer Classification Model using Multi-view Feature Selection Method and Ensemble Classifier
- arxiv url: http://arxiv.org/abs/2501.06805v1
- Date: Sun, 12 Jan 2025 13:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:21:10.687739
- Title: A Pan-cancer Classification Model using Multi-view Feature Selection Method and Ensemble Classifier
- Title(参考訳): 多視点特徴選択法とアンサンブル分類器を用いたパンカー分類モデル
- Authors: Tareque Mohmud Chowdhury, Farzana Tabassum, Sabrina Islam, Abu Raihan Mostofa Kamal,
- Abstract要約: 我々は,トランスクリプトームデータに特化して機能選択フレームワークを開発する。
我々は,LR,SVM,XGBoostに基づく2つのアンサンブルMLモデルを構築した。
97.11%の精度と0.9996のAUC値で、既存の33種類のがんを分類する手法よりも優れている。
- 参考スコア(独自算出の注目度): 0.046873264197900916
- License:
- Abstract: Accurately identifying cancer samples is crucial for precise diagnosis and effective patient treatment. Traditional methods falter with high-dimensional and high feature-to-sample count ratios, which are critical for classifying cancer samples. This study aims to develop a novel feature selection framework specifically for transcriptome data and propose two ensemble classifiers. For feature selection, we partition the transcriptome dataset vertically based on feature types. Then apply the Boruta feature selection process on each of the partitions, combine the results, and apply Boruta again on the combined result. We repeat the process with different parameters of Boruta and prepare the final feature set. Finally, we constructed two ensemble ML models based on LR, SVM and XGBoost classifiers with max voting and averaging probability approach. We used 10-fold cross-validation to ensure robust and reliable classification performance. With 97.11\% accuracy and 0.9996 AUC value, our approach performs better compared to existing state-of-the-art methods to classify 33 types of cancers. A set of 12 types of cancer is traditionally challenging to differentiate between each other due to their similarity in tissue of origin. Our method accurately identifies over 90\% of samples from these 12 types of cancers, which outperforms all known methods presented in existing literature. The gene set enrichment analysis reveals that our framework's selected features have enriched the pathways highly related to cancers. This study develops a feature selection framework to select features highly related to cancer development and leads to identifying different types of cancer samples with higher accuracy.
- Abstract(参考訳): 正確ながんサンプルの同定は、正確な診断と効果的な患者治療に不可欠である。
従来の方法では、高次元および高特徴量とサンプル数の比率が設定され、がんサンプルの分類に欠かせない。
本研究では,トランスクリプトームデータ専用の新しい特徴選択フレームワークを開発し,2つのアンサンブル分類器を提案する。
特徴の選択には,特徴型に基づいたトランスクリプトームデータセットを垂直に分割する。
次に、各分割にボルタ特徴選択プロセスを適用し、結果を組み合わせて、組み合わせた結果に再びボルタを適用する。
Borutaの異なるパラメータでプロセスを繰り返し、最終機能セットを準備します。
最後に,LR,SVM,XGBoost分類器に基づく2つのアンサンブルMLモデルを構築した。
10倍のクロスバリデーションを用いて、堅牢で信頼性の高い分類性能を確保した。
99.11\%の精度と0.9996のAUC値で、既存の33種類のがんを分類する最先端の手法と比較すると、より優れている。
12種類のがんのセットは、起源組織の類似性から、互いに区別することが伝統的に困難である。
本手法は,これらの12種類のがんの試料の90%以上を正確に同定し,既存の文献で示されるすべての既知の方法より優れていた。
遺伝子セットの富化分析により、我々のフレームワークが選択した特徴が、がんに強く関連している経路を豊かにしていることが明らかとなった。
本研究は, がん発生に高い関連性を有する特徴を選別する特徴選択フレームワークを開発し, 高い精度で異なる種類のがんサンプルを同定する。
関連論文リスト
- LASSO-MOGAT: A Multi-Omics Graph Attention Framework for Cancer Classification [41.94295877935867]
本稿では,メッセンジャーRNA,マイクロRNA,DNAメチル化データを統合し,31種類のがんを分類するグラフベースのディープラーニングフレームワークLASSO-MOGATを紹介する。
論文 参考訳(メタデータ) (2024-08-30T16:26:04Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Biomarker based Cancer Classification using an Ensemble with Pre-trained Models [2.2436844508175224]
マルチクラス分類タスクに対して,事前学習したハイパーファストモデル,XGBoost,LightGBMを組み合わせた新しいアンサンブルモデルを提案する。
我々はメタトレーニングしたハイパーファストモデルを用いてがんの分類を行い、AUCは0.9929である。
また,事前学習したハイパーファストモデル,XGBoost,LightGBMを多クラス分類タスクに組み合わせた新しいアンサンブルモデルを提案し,精度を漸進的に向上させる(0.9464)。
論文 参考訳(メタデータ) (2024-06-14T14:43:59Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Improving Precancerous Case Characterization via Transformer-based
Ensemble Learning [31.891340667123124]
自然言語処理のがん病理学報告への応用は、がん症例の検出に焦点が当てられている。
先天性腺腫のキャラクタリゼーションの改善は、早期がんの検出と予防のための診断試験の開発を支援する。
以上の結果から,NLPを用いて早期がん予防のための診断試験の開発を促進できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-10T00:06:28Z) - Gene selection from microarray expression data: A Multi-objective PSO
with adaptive K-nearest neighborhood [0.0]
本稿では,遺伝子発現データを用いたヒト癌疾患の分類問題について論じる。
マイクロアレイデータセットを解析し,がん疾患を効果的に分類するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-27T04:22:10Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Topological Data Analysis of copy number alterations in cancer [70.85487611525896]
癌ゲノム情報に含まれる情報を新しいトポロジに基づくアプローチで捉える可能性を探る。
本手法は, 癌体性遺伝データに有意な低次元表現を抽出する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-22T17:31:23Z) - Sickle-cell disease diagnosis support selecting the most appropriate
machinelearning method: Towards a general and interpretable approach for
cellmorphology analysis from microscopy images [0.0]
本稿では,最先端技術に基づく分類手法と特徴の選択手法を提案する。
当科では,他の研究例に応用できる病原体疾患のサンプルを用いて検討した。
論文 参考訳(メタデータ) (2020-10-09T11:46:38Z) - The scalable Birth-Death MCMC Algorithm for Mixed Graphical Model
Learning with Application to Genomic Data Integration [0.0]
本稿では,異なるタイプのマルチオミックデータを解析するための混合グラフィカルモデルを提案する。
モデル選択結果の計算効率と精度の両面で,本手法が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-08T16:34:58Z) - Analysis of ensemble feature selection for correlated high-dimensional
RNA-Seq cancer data [0.24366811507669126]
本研究は、関連する変数の発見のための2つのアプローチを比較する。
最も有益な特徴は、4つの特徴選択アルゴリズムを用いて識別される。
残念なことに、特徴選択アルゴリズムのアンサンブルから得られた特徴集合に基づいて構築されたモデルは、個々のアルゴリズムから得られた特徴集合に基づいて開発されたモデルよりは良くなかった。
論文 参考訳(メタデータ) (2020-04-28T20:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。