論文の概要: ATwo-Stage Ensemble Feature Selection and Particle Swarm Optimization Approach for Micro-Array Data Classification in Distributed Computing Environments
- arxiv url: http://arxiv.org/abs/2507.04251v1
- Date: Sun, 06 Jul 2025 05:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.089241
- Title: ATwo-Stage Ensemble Feature Selection and Particle Swarm Optimization Approach for Micro-Array Data Classification in Distributed Computing Environments
- Title(参考訳): 分散コンピューティング環境におけるマイクロアレイデータ分類のためのATwo-Stage Ensemble Feature SelectionとParticle Swarm Optimizationアプローチ
- Authors: Aayush Adhikari, Sandesh Bhatta, Harendra S. Jangwan, Amit Mishra, Khair Ul Nisa, Abu Taha Zamani, Aaron Sapkota, Debendra Muduli, Nikhat Parveen,
- Abstract要約: マイクロアレイ技術によって生成されたデータセットの高次元性は、機械学習アルゴリズムの課題である。
我々は,ハイブリッドアレイのクラスiフィカシックに対して,多数決によるアンサンブル特徴選択手法を提案する。
提案モデルの有効性は,ローカル環境とクラウド環境の両方で検証されている。
- 参考スコア(独自算出の注目度): 0.28087862620958753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High dimensionality in datasets produced by microarray technology presents a challenge for Machine Learning (ML) algorithms, particularly in terms of dimensionality reduction and handling imbalanced sample sizes. To mitigate the explained problems, we have proposedhybrid ensemble feature selection techniques with majority voting classifier for micro array classi f ication. Here we have considered both filter and wrapper-based feature selection techniques including Mutual Information (MI), Chi-Square, Variance Threshold (VT), Least Absolute Shrinkage and Selection Operator (LASSO), Analysis of Variance (ANOVA), and Recursive Feature Elimination (RFE), followed by Particle Swarm Optimization (PSO) for selecting the optimal features. This Artificial Intelligence (AI) approach leverages a Majority Voting Classifier that combines multiple machine learning models, such as Logistic Regression (LR), Random Forest (RF), and Extreme Gradient Boosting (XGBoost), to enhance overall performance and accuracy. By leveraging the strengths of each model, the ensemble approach aims to provide more reliable and effective diagnostic predictions. The efficacy of the proposed model has been tested in both local and cloud environments. In the cloud environment, three virtual machines virtual Central Processing Unit (vCPU) with size 8,16 and 64 bits, have been used to demonstrate the model performance. From the experiment it has been observed that, virtual Central Processing Unit (vCPU)-64 bits provides better classification accuracies of 95.89%, 97.50%, 99.13%, 99.58%, 99.11%, and 94.60% with six microarray datasets, Mixed Lineage Leukemia (MLL), Leukemia, Small Round Blue Cell Tumors (SRBCT), Lymphoma, Ovarian, andLung,respectively, validating the effectiveness of the proposed modelin bothlocalandcloud environments.
- Abstract(参考訳): マイクロアレイ技術によって生成されたデータセットの高次元性は機械学習(ML)アルゴリズムの課題であり、特にデメンデーションの低減と不均衡なサンプルサイズを扱う。
この問題を緩和するために,マイクロアレイクラスi f の多数決分類器を用いたヒブリッド・アンサンブル特徴選択手法を提案する。
ここでは,Mutual Information (MI), Chi-Square, Variance Threshold (VT), Least Absolute Shrinkage and Selection Operator (LASSO), Analysis of Variance (ANOVA), Recursive Feature Elimination (RFE), そしてParticle Swarm Optimization (PSO) などの特徴選択手法を検討した。
このAI(Artificial Intelligence)アプローチでは、ロジスティック回帰(LR)、ランダムフォレスト(RF)、エクストリームグラディエントブースティング(XGBoost)といった複数の機械学習モデルを組み合わせて、全体的なパフォーマンスと精度を向上させる。
各モデルの強みを活用することで、アンサンブルアプローチはより信頼性が高く効果的な診断予測を提供することを目指している。
提案モデルの有効性は,ローカル環境とクラウド環境の両方で検証されている。
クラウド環境では,8,16ビット,64ビットの仮想中央処理ユニット(vCPU)がモデル性能の実証に使用されている。
実験の結果、仮想中央処理ユニット(vCPU)-64ビットは95.89%、97.50%、99.13%、99.58%、99.11%、94.60%の分類精度を6つのマイクロアレイデータセットで提供し、混合線形白血病(MLL)、白血病、小ラウンドブルー細胞腫瘍(SRBCT)、リンパ腫、卵巣およびLungは、局所およびクラウド環境で提案されたモデルの有効性を検証する。
関連論文リスト
- Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [58.26575378840226]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。
この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - VICatMix: variational Bayesian clustering and variable selection for discrete biomedical data [0.0]
分類データのクラスタリング用に設計された変分ベイズ有限混合モデルであるVICatMixを提案する。
提案モデルでは, 近似とモデル平均化を用いて, VIにおける局所最適性の低下を緩和し, クラスタ数の真の推定を改良する。
我々は、異なるオミクスデータセットを用いた統合クラスタ分析におけるVICatMixの有用性を実証し、新しいサブタイプの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-23T21:45:04Z) - DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。
弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。
我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文 参考訳(メタデータ) (2024-03-14T02:11:38Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Cervical Cytology Classification Using PCA & GWO Enhanced Deep Features
Selection [1.990876596716716]
子宮頸癌は世界でも最も致命的かつ一般的な疾患の1つである。
ディープラーニングと特徴選択を利用した完全自動化フレームワークを提案する。
このフレームワークは3つの公開ベンチマークデータセットで評価されている。
論文 参考訳(メタデータ) (2021-06-09T08:57:22Z) - Towards Better Object Detection in Scale Variation with Adaptive Feature
Selection [3.5352273012717044]
チャネル次元の多レベル表現を融合する方法を自動学習する新しい適応的特徴選択モジュール(AFSM)を提案する。
これは、特徴ピラミッド構造を持つ検出器の性能を著しく向上させる。
クラス不均衡問題に対処するために,クラス対応サンプリング機構(CASM)を提案する。
論文 参考訳(メタデータ) (2020-12-06T13:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。