論文の概要: Handling highly correlated genes in prediction analysis of genomic
studies
- arxiv url: http://arxiv.org/abs/2007.02455v4
- Date: Fri, 8 Apr 2022 01:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 08:30:46.639400
- Title: Handling highly correlated genes in prediction analysis of genomic
studies
- Title(参考訳): ゲノム研究の予測解析における高相関遺伝子処理
- Authors: Li Xing, Songwan Joun, Kurt Mackay, Mary Lesperance, and Xuekui Zhang
- Abstract要約: 遺伝子間の高い相関は、多系統問題のような技術的な問題を導入し、信頼性の低い予測モデルをもたらす。
本稿では,高相関遺伝子をグループとして扱うグループ化アルゴリズムを提案する。
まず、遺伝子群の共通パターンを用いることで、条件変化下での予測をより堅牢で信頼性の高いものにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Selecting feature genes to predict phenotypes is one of the
typical tasks in analyzing genomics data. Though many general-purpose
algorithms were developed for prediction, dealing with highly correlated genes
in the prediction model is still not well addressed. High correlation among
genes introduces technical problems, such as multi-collinearity issues, leading
to unreliable prediction models. Furthermore, when a causal gene (whose
variants have an actual biological effect on a phenotype) is highly correlated
with other genes, most algorithms select the feature gene from the correlated
group in a purely data-driven manner. Since the correlation structure among
genes could change substantially when condition changes, the prediction model
based on not correctly selected feature genes is unreliable. Therefore, we aim
to keep the causal biological signal in the prediction process and build a more
robust prediction model.
Method: We propose a grouping algorithm, which treats highly correlated genes
as a group and uses their common pattern to represent the group's biological
signal in feature selection. Our novel grouping algorithm can be integrated
into existing prediction algorithms to enhance their prediction performance.
Our proposed grouping method has two advantages. First, using the gene group's
common patterns makes the prediction more robust and reliable under condition
change. Second, it reports whole correlated gene groups as discovered
biomarkers for prediction tasks, allowing researchers to conduct follow-up
studies to identify causal genes within the identified groups.
Result: Using real benchmark scRNA-seq datasets with simulated cell
phenotypes, we demonstrate our novel method significantly outperforms standard
models in both (1) prediction of cell phenotypes and (2) feature gene
selection.
- Abstract(参考訳): 背景:表現型を予測するために特徴遺伝子を選択することは、ゲノムデータを分析する典型的なタスクの1つである。
多くの汎用アルゴリズムが予測のために開発されたが、予測モデルで高度に相関した遺伝子を扱うことは、まだうまく対処されていない。
遺伝子間の高い相関は、多系統問題のような技術的な問題を導入し、信頼性の低い予測モデルをもたらす。
さらに、因果遺伝子(これらの変異体が表現型に実際の生物学的効果を持つ)が他の遺伝子と高い相関関係にある場合、ほとんどのアルゴリズムは、相関群から純粋にデータ駆動的に特徴遺伝子を選択する。
遺伝子間の相関構造は条件変化時に大きく変化するため、正しく選択されていない特徴遺伝子に基づく予測モデルは信頼できない。
そこで我々は,因果的生物学的シグナルを予測過程に保持し,より堅牢な予測モデルを構築することを目的としている。
方法: 高相関遺伝子をグループとして扱うグループ化アルゴリズムを提案し,その共通パターンを用いて特徴選択におけるグループの生物学的信号を表現する。
新たなグループ化アルゴリズムを既存の予測アルゴリズムに統合し,予測性能を向上させる。
提案手法には2つの利点がある。
まず、遺伝子群の共通パターンを用いることで、条件変化下での予測をより堅牢で信頼性の高いものにします。
第2に、相関遺伝子群全体を予測タスクの発見バイオマーカーとして報告し、研究者が同定されたグループ内の因果遺伝子を同定するための追跡研究を行うことを可能にした。
結果: 細胞表現型を模擬した実ベンチマークscRNA-seqデータセットを用いて, (1) 細胞表現型の予測と(2) 特徴遺伝子選択の両方において, 標準モデルよりも優れた性能を示す。
関連論文リスト
- Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - A Comparative Analysis of Gene Expression Profiling by Statistical and
Machine Learning Approaches [1.8954222800767324]
がん検体を分類する機械学習モデルの生物学的および方法論的限界について論じる。
遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られる。
ブラックボックスニューラルネットワークによって学習された情報は、微分表現の概念と関連している。
論文 参考訳(メタデータ) (2024-02-01T18:17:36Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - SimpleChrome: Encoding of Combinatorial Effects for Predicting Gene
Expression [8.326669256957352]
遺伝子のヒストン修飾表現を学習するディープラーニングモデルであるSimpleChromeを紹介します。
このモデルから得られた特徴により、遺伝子間相互作用の潜在効果と標的遺伝子の発現に対する直接遺伝子調節をよりよく理解することができます。
論文 参考訳(メタデータ) (2020-12-15T23:30:36Z) - Expectile Neural Networks for Genetic Data Analysis of Complex Diseases [3.0088453915399747]
本研究では、複雑な疾患の遺伝子データ解析のための予測型ニューラルネットワーク(ENN)法を開発した。
期待回帰と同様に、ERNは遺伝子変異と疾患の表現型との関係を包括的に把握する。
提案手法は,遺伝子変異と疾患表現型との間に複雑な関係がある場合,既存の予測回帰よりも優れていた。
論文 参考訳(メタデータ) (2020-10-26T21:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。