論文の概要: BOLIMES: Boruta and LIME optiMized fEature Selection for Gene Expression Classification
- arxiv url: http://arxiv.org/abs/2502.13080v1
- Date: Tue, 18 Feb 2025 17:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:54.409534
- Title: BOLIMES: Boruta and LIME optiMized fEature Selection for Gene Expression Classification
- Title(参考訳): BOLIMES:Boruta and LIMEOptimized fEature Selection for Gene Expression Classification
- Authors: Bich-Chung Phan, Thanh Ma, Huu-Hoa Nguyen, and Thanh-Nghi Do,
- Abstract要約: BOLIMESは、遺伝子発現の分類を強化するために設計された、新しい特徴選択アルゴリズムである。
包括的特徴選択と解釈可能性による洗練を組み合わせ、高次元遺伝子発現解析のための強力なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.08738116412366388
- License:
- Abstract: Gene expression classification is a pivotal yet challenging task in bioinformatics, primarily due to the high dimensionality of genomic data and the risk of overfitting. To bridge this gap, we propose BOLIMES, a novel feature selection algorithm designed to enhance gene expression classification by systematically refining the feature subset. Unlike conventional methods that rely solely on statistical ranking or classifier-specific selection, we integrate the robustness of Boruta with the interpretability of LIME, ensuring that only the most relevant and influential genes are retained. BOLIMES first employs Boruta to filter out non-informative genes by comparing each feature against its randomized counterpart, thus preserving valuable information. It then uses LIME to rank the remaining genes based on their local importance to the classifier. Finally, an iterative classification evaluation determines the optimal feature subset by selecting the number of genes that maximizes predictive accuracy. By combining exhaustive feature selection with interpretability-driven refinement, our solution effectively balances dimensionality reduction with high classification performance, offering a powerful solution for high-dimensional gene expression analysis.
- Abstract(参考訳): 遺伝子発現の分類はバイオインフォマティクスにおいて重要な課題であるが、主にゲノムデータの高次元性と過剰適合のリスクが原因である。
このギャップを埋めるために,機能サブセットを体系的に書き換えることで,遺伝子発現の分類を改良する新しい特徴選択アルゴリズムであるBOLIMESを提案する。
統計的ランク付けや分類器固有の選択にのみ依存する従来の方法とは異なり、ボルタの頑健さとLIMEの解釈可能性を統合し、最も関連性の高い遺伝子のみが維持されることを保証する。
BOLIMESはまずボルタを用いて、各特徴をランダム化された特徴と比較することで非情報的遺伝子をフィルタリングし、貴重な情報を保存する。
その後、LIMEを使用して、分類器の局所的重要性に基づいて、残りの遺伝子をランク付けする。
最後に、反復分類評価は、予測精度を最大化する遺伝子数を選択して最適な特徴部分集合を決定する。
本手法は,包括的特徴選択と解釈可能性駆動型精細化を組み合わせることで,次元の縮小と高い分類性能を効果的にバランスさせ,高次元遺伝子発現解析のための強力なソリューションを提供する。
関連論文リスト
- Prediction by Machine Learning Analysis of Genomic Data Phenotypic Frost Tolerance in Perccottus glenii [7.412214379486083]
我々はPerccottus gleniiの遺伝子配列解析に機械学習技術を用いる。
我々はRandom Forest, LightGBM, XGBoost, Decision Treeの4つの分類モデルを構築した。
これらの分類モデルで使用されるデータセットは、National Center for Biotechnology Informationデータベースから抽出された。
論文 参考訳(メタデータ) (2024-10-11T14:45:47Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Exhaustive Exploitation of Nature-inspired Computation for Cancer Screening in an Ensemble Manner [20.07173196364489]
本研究では、遺伝子発現データからがん分類のためのアンサンブル学習を改善するために、進化最適化逆アンサンブル学習(EODE)と呼ばれるフレームワークを提案する。
各種癌種を含む35の遺伝子発現ベンチマークデータセットを対象に実験を行った。
論文 参考訳(メタデータ) (2024-04-06T08:07:48Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Feature Selection via Robust Weighted Score for High Dimensional Binary
Class-Imbalanced Gene Expression Data [1.2891210250935148]
非平衡データに対する頑健な重み付けスコア (ROWSU) は, クラス不均衡問題を用いた高次元遺伝子発現二項分類における最も識別性の高い特徴を選択するために提案される。
ROWSU法の性能を6ドルの遺伝子発現データセットで評価した。
論文 参考訳(メタデータ) (2024-01-23T11:22:03Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Latent regularization for feature selection using kernel methods in
tumor classification [1.9078991171384014]
特徴選択は、腫瘍の分類に役立つ重要な遺伝子を選択するための有用なアプローチである。
本稿では,遺伝子とカスタムカーネルのサブセットを減らし,マルチカーネル学習に基づく特徴選択手法を提案する。
新しい未確認試験試料の腫瘍分類性能により, 一般化能力の向上と評価を行った。
論文 参考訳(メタデータ) (2020-04-10T00:46:02Z) - A New Gene Selection Algorithm using Fuzzy-Rough Set Theory for Tumor
Classification [0.0]
本稿では,ファジィ・ルー集合の識別行列を用いた新しい遺伝子選択手法を提案する。
提案手法は、遺伝子選択結果を改善するために、同一のクラスラベルと異なるクラスラベルを持つインスタンスの類似性を考慮に入れている。
実験により, この手法は最先端の手法に比べて効率が良いことを示した。
論文 参考訳(メタデータ) (2020-03-26T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。