論文の概要: Feature Dimensionality Outweighs Model Complexity in Breast Cancer Subtype Classification Using TCGA-BRCA Gene Expression Data
- arxiv url: http://arxiv.org/abs/2605.06562v1
- Date: Thu, 07 May 2026 16:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.013739
- Title: Feature Dimensionality Outweighs Model Complexity in Breast Cancer Subtype Classification Using TCGA-BRCA Gene Expression Data
- Title(参考訳): TCGA-BRCA遺伝子発現データを用いた乳癌亜型分類における特徴次元のモデル複雑性
- Authors: Meena Al Hasani,
- Abstract要約: TCGA-BRCA遺伝子発現データを用いて,モデル複雑性と特徴選択がサブタイプ分類性能に及ぼす影響を評価する。
ロジスティック回帰は、希少なクラスの検出の改善を含む、サブタイプ間で最も安定かつバランスの取れた性能を示した。
SVMは特徴的次元に敏感であるのに対し,ランダム林は総合的精度が強いにもかかわらず少数サブタイプでは性能が低かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate classification of breast cancer subtypes from gene expression data is critical for diagnosis and treatment selection. However, such datasets are characterized by high dimensionality and limited sample size, posing challenges for machine learning models. In this study, we evaluate the impact of model complexity and feature selection on subtype classification performance using TCGA-BRCA gene expression data. Logistic regression, random forest, and support vector machine (SVM) models were trained using varying numbers of highly variable genes (50 to 20,518). Performance was evaluated using stratified 5-fold cross-validation and assessed with accuracy and macro F1 score. While all models achieved high accuracy, macro F1 analysis revealed substantial differences in subtype-level performance. Logistic regression demonstrated the most stable and balanced performance across subtypes, including improved detection of rare classes. Random forest underperformed on minority subtypes despite strong overall accuracy, while SVM showed sensitivity to feature dimensionality. These findings highlight the importance of model simplicity, evaluation metrics, and feature selection in high-dimensional biological classification tasks.
- Abstract(参考訳): 遺伝子発現データから乳がんサブタイプの正確な分類は、診断および治療選択に重要である。
しかし、そのようなデータセットは高次元と限られたサンプルサイズで特徴付けられており、機械学習モデルの課題を提起している。
本研究では,TCGA-BRCA遺伝子発現データを用いて,モデル複雑性と特徴選択がサブタイプ分類性能に及ぼす影響を評価する。
遺伝的回帰、ランダムフォレスト、サポートベクターマシン(SVM)モデルは、多種多様な高可変遺伝子(50から20,518)を用いて訓練された。
層状5次元クロスバリデーションを用いて評価を行い, 精度とマクロF1スコアで評価した。
全てのモデルで高い精度が得られたが, マクロF1解析の結果, サブタイプレベルの性能に有意差が認められた。
ロジスティック回帰は、希少なクラスの検出の改善を含む、サブタイプ間で最も安定かつバランスの取れた性能を示した。
SVMは特徴的次元に敏感であるのに対し,ランダム林は総合的精度が強いにもかかわらず少数サブタイプでは性能が低かった。
これらの知見は,高次元生物分類タスクにおけるモデル単純性,評価指標,特徴選択の重要性を浮き彫りにした。
関連論文リスト
- DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis [43.565183518761984]
生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。
複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
論文 参考訳(メタデータ) (2026-02-02T09:10:09Z) - Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。
我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。
乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文 参考訳(メタデータ) (2026-01-29T14:06:50Z) - Stabilizing Machine Learning for Reproducible and Explainable Results: A Novel Validation Approach to Subject-Specific Insights [2.7516838144367735]
本稿では,一般的なMLモデルを用いて再現可能な性能とロバストな特徴重要度分析を保証する新しい検証手法を提案する。
ドメイン、サンプルサイズ、人口統計の異なる9つのデータセットに対して、1つのランダムフォレスト(RF)モデルをテストしました。
被験者レベルでの重要な特徴を一貫して同定し,グループレベルの特徴重要度分析を改善した。
論文 参考訳(メタデータ) (2024-12-16T23:14:26Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Cancer Subtyping by Improved Transcriptomic Features Using Vector
Quantized Variational Autoencoder [10.835673227875615]
本稿では,Vector Quantized Variational AutoEncoder (VQ-VAE)を提案する。
VQ-VAEは厳密な仮定を課さないため、その潜在機能は入力のより良い表現であり、メインストリームのクラスタリング手法で優れたクラスタリング性能を得ることができる。
論文 参考訳(メタデータ) (2022-07-20T09:47:53Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。