論文の概要: Improving statistical learning methods via features selection without replacement sampling and random projection
- arxiv url: http://arxiv.org/abs/2506.00053v1
- Date: Wed, 28 May 2025 22:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.092545
- Title: Improving statistical learning methods via features selection without replacement sampling and random projection
- Title(参考訳): 置換サンプリングとランダムプロジェクションを伴わない特徴選択による統計的学習法の改善
- Authors: Sulaiman khan, Muhammad Ahmad, Fida Ullah, Carlos Aguilar Ibañez, José Eduardo Valdez Rodriguez,
- Abstract要約: 癌は、正常な遺伝子発現を阻害する遺伝学的およびエピジェネティックな変化を特徴とする遺伝疾患である。
高次元マイクロアレイデータセットは、「小さいn、大きなp」問題のために分類モデルに挑戦する。
本研究は癌バイオマーカーの発見に寄与し,マイクロアレイデータ解析のための堅牢な計算手法を提供する。
- 参考スコア(独自算出の注目度): 0.680740878601496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cancer is fundamentally a genetic disease characterized by genetic and epigenetic alterations that disrupt normal gene expression, leading to uncontrolled cell growth and metastasis. High-dimensional microarray datasets pose challenges for classification models due to the "small n, large p" problem, resulting in overfitting. This study makes three different key contributions: 1) we propose a machine learning-based approach integrating the Feature Selection Without Re-placement (FSWOR) technique and a projection method to improve classification accuracy. 2) We apply the Kendall statistical test to identify the most significant genes from the brain cancer mi-croarray dataset (GSE50161), reducing the feature space from 54,675 to 20,890 genes.3) we apply machine learning models using k-fold cross validation techniques in which our model incorpo-rates ensemble classifiers with LDA projection and Na\"ive Bayes, achieving a test score of 96%, outperforming existing methods by 9.09%. The results demonstrate the effectiveness of our ap-proach in high-dimensional gene expression analysis, improving classification accuracy while mitigating overfitting. This study contributes to cancer biomarker discovery, offering a robust computational method for analyzing microarray data.
- Abstract(参考訳): がんは基本的に、正常な遺伝子発現を阻害する遺伝子およびエピジェネティックな変化を特徴とする遺伝疾患であり、制御不能な細胞増殖と転移を引き起こす。
高次元マイクロアレイデータセットは、「小さいn、大きなp」問題のために分類モデルに挑戦し、過度に適合する。
この研究は3つの重要な貢献をしている。
1) 分類精度を向上させるため,FSWOR (Feature Selection Without Re-placement) 技術とプロジェクション手法を組み合わせた機械学習手法を提案する。
2) ケダル統計検査を応用して,脳がんのミクロアレーデータセット(GSE50161)から最も重要な遺伝子を同定し,特徴空間を54,675から20,890に削減した。
その結果、高次元遺伝子発現解析におけるap-proachの有効性が示され、オーバーフィッティングを緩和しながら分類精度が向上した。
本研究は癌バイオマーカーの発見に寄与し,マイクロアレイデータ解析のための堅牢な計算手法を提供する。
関連論文リスト
- Machine Learning Algorithm for Noise Reduction and Disease-Causing Gene Feature Extraction in Gene Sequencing Data [4.2547679858666285]
本稿では,DeepSeqDenoiseアルゴリズムを用いた遺伝子シークエンシングにおけるノイズ低減と病因遺伝子の特徴抽出のための機械学習手法を提案する。
特徴工学により17つの重要な特徴をスクリーニングし,94.3%の精度で病原性遺伝子を予測する統合学習モデルを構築した。
論文 参考訳(メタデータ) (2025-05-26T09:23:09Z) - Survey and Improvement Strategies for Gene Prioritization with Large Language Models [61.24568051916653]
大規模言語モデル (LLM) は, 医学検査において良好に機能しているが, 希少な遺伝疾患の診断における有効性は評価されていない。
表現型と可溶性レベルに基づいて, マルチエージェントとヒトフェノタイプオントロジー(HPO)を分類した。
ベースラインでは、GPT-4は他のLLMよりも優れており、因果遺伝子を正しくランク付けする際の精度は30%近く向上した。
論文 参考訳(メタデータ) (2025-01-30T23:03:03Z) - An Evolutional Neural Network Framework for Classification of Microarray Data [0.0]
本研究の目的は,遺伝的アルゴリズムとニューラルネットワークのハイブリッドモデルを用いて,情報的遺伝子のサブセット選択において問題を克服することである。
実験の結果,提案手法は,他の機械学習アルゴリズムと比較して,高い精度と最小数の選択遺伝子が示唆された。
論文 参考訳(メタデータ) (2024-11-20T13:48:40Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - A Hybrid Machine Learning Model for Classifying Gene Mutations in Cancer using LSTM, BiLSTM, CNN, GRU, and GloVe [0.0]
本稿では,LSTM,BiLSTM,CNN,GRU,GloVeを相乗的に組み合わせたハイブリッドアンサンブルモデルを提案する。
提案手法はトレーニング精度80.6%,精度81.6%,リコール80.6%,F1スコア83.1%,平均二乗誤差(MSE)2.596。
論文 参考訳(メタデータ) (2023-07-24T21:01:46Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Fuzzy Gene Selection and Cancer Classification Based on Deep Learning
Model [1.3072222152900117]
我々は,癌分類を容易にする情報的遺伝子を同定するための新しいファジィ遺伝子選択法(FGS)を開発した。
FGS法で癌分類は96.5%,96.2%,96%,95.9%の精度,精度,リコール,f1スコアを得た。
得られた6つのデータセットを調べることで、提案モデルはがんを効果的に分類する能力を示す。
論文 参考訳(メタデータ) (2023-05-04T21:52:57Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - A Deep Embedded Refined Clustering Approach for Breast Cancer
Distinction based on DNA Methylation [0.0]
本研究では、DNAメチル化に基づく乳癌分化のための深層組込み精製クラスタリング法を提案する。
提案手法は主に2つの段階からなる。
第1段階は、オートエンコーダに基づくメチル化データの次元的縮小である。
第2段階は、オートエンコーダによって提供される潜在空間のソフトアサインに基づくクラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-18T16:46:25Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。