論文の概要: A Comparative Analysis of Gene Expression Profiling by Statistical and
Machine Learning Approaches
- arxiv url: http://arxiv.org/abs/2402.00926v1
- Date: Thu, 1 Feb 2024 18:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:02:40.805080
- Title: A Comparative Analysis of Gene Expression Profiling by Statistical and
Machine Learning Approaches
- Title(参考訳): 統計的および機械学習による遺伝子発現プロファイリングの比較分析
- Authors: Myriam Bontonou, Ana\"is Haget, Maria Boulougouri, Benjamin Audit,
Pierre Borgnat, Jean-Michel Arbona
- Abstract要約: がん検体を分類する機械学習モデルの生物学的および方法論的限界について論じる。
遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られる。
ブラックボックスニューラルネットワークによって学習された情報は、微分表現の概念と関連している。
- 参考スコア(独自算出の注目度): 1.8954222800767324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning models have been proposed to classify phenotypes from
gene expression data. In addition to their good performance, these models can
potentially provide some understanding of phenotypes by extracting explanations
for their decisions. These explanations often take the form of a list of genes
ranked in order of importance for the predictions, the highest-ranked genes
being interpreted as linked to the phenotype. We discuss the biological and the
methodological limitations of such explanations. Experiments are performed on
several datasets gathering cancer and healthy tissue samples from the TCGA,
GTEx and TARGET databases. A collection of machine learning models including
logistic regression, multilayer perceptron, and graph neural network are
trained to classify samples according to their cancer type. Gene rankings are
obtained from explainability methods adapted to these models, and compared to
the ones from classical statistical feature selection methods such as mutual
information, DESeq2, and EdgeR. Interestingly, on simple tasks, we observe that
the information learned by black-box neural networks is related to the notion
of differential expression. In all cases, a small set containing the
best-ranked genes is sufficient to achieve a good classification. However,
these genes differ significantly between the methods and similar classification
performance can be achieved with numerous lower ranked genes. In conclusion,
although these methods enable the identification of biomarkers characteristic
of certain pathologies, our results question the completeness of the selected
gene sets and thus of explainability by the identification of the underlying
biological processes.
- Abstract(参考訳): 遺伝子発現データから表現型を分類するために多くの機械学習モデルが提案されている。
優れた性能に加えて、これらのモデルは、決定のための説明を抽出することによって、表現型についてある程度の理解を提供する可能性がある。
これらの説明は、予測の重要性順にランク付けされた遺伝子のリストの形式をとることが多く、最も上位の遺伝子は表現型と関連していると解釈されている。
このような説明の生物学的および方法論的限界について論じる。
TCGA、GTEx、TARGETデータベースからがんおよび健康組織サンプルを収集するいくつかのデータセットで実験が行われた。
ロジスティック回帰、多層パーセプトロン、グラフニューラルネットワークを含む機械学習モデルのコレクションを訓練し、それらのがんタイプに応じてサンプルを分類する。
遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られ、相互情報やDESeq2、EdgeRといった古典的な統計特徴選択法と比較される。
興味深いことに、簡単なタスクでは、ブラックボックスニューラルネットワークによって学習された情報は微分表現の概念と関連している。
いずれの場合も、最良の遺伝子を含む小さな集合は良い分類を達成するのに十分である。
しかし、これらの遺伝子は方法によって大きく異なり、類似した分類性能は多数の下位遺伝子で達成できる。
結論として, これらの手法は, 特定の病理に特徴的なバイオマーカーの同定を可能にするが, 選択された遺伝子セットの完全性や, 基礎となる生物学的プロセスの同定による説明可能性に疑問を呈する。
関連論文リスト
- An Evolutional Neural Network Framework for Classification of Microarray Data [0.0]
本研究の目的は,遺伝的アルゴリズムとニューラルネットワークのハイブリッドモデルを用いて,情報的遺伝子のサブセット選択において問題を克服することである。
実験の結果,提案手法は,他の機械学習アルゴリズムと比較して,高い精度と最小数の選択遺伝子が示唆された。
論文 参考訳(メタデータ) (2024-11-20T13:48:40Z) - Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models [3.220287168504093]
重要度によるランク付け機能は,バイオマーカーの同定に十分ではないことを示す。
バイオマーカーが真理を知らないままに関係する原因を反映しているかどうかを評価することは難しいため、階層的モデルを提案することで遺伝子発現データをシミュレートする。
論文 参考訳(メタデータ) (2023-03-19T19:54:15Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Handling highly correlated genes in prediction analysis of genomic
studies [0.0]
遺伝子間の高い相関は、多系統問題のような技術的な問題を導入し、信頼性の低い予測モデルをもたらす。
本稿では,高相関遺伝子をグループとして扱うグループ化アルゴリズムを提案する。
まず、遺伝子群の共通パターンを用いることで、条件変化下での予測をより堅牢で信頼性の高いものにする。
論文 参考訳(メタデータ) (2020-07-05T22:14:03Z) - A New Gene Selection Algorithm using Fuzzy-Rough Set Theory for Tumor
Classification [0.0]
本稿では,ファジィ・ルー集合の識別行列を用いた新しい遺伝子選択手法を提案する。
提案手法は、遺伝子選択結果を改善するために、同一のクラスラベルと異なるクラスラベルを持つインスタンスの類似性を考慮に入れている。
実験により, この手法は最先端の手法に比べて効率が良いことを示した。
論文 参考訳(メタデータ) (2020-03-26T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。