論文の概要: Unsupervised language models for disease variant prediction
- arxiv url: http://arxiv.org/abs/2212.03979v1
- Date: Wed, 7 Dec 2022 22:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:26:28.469785
- Title: Unsupervised language models for disease variant prediction
- Title(参考訳): 疾患変異予測のための教師なし言語モデル
- Authors: Allan Zhou, Nicholas C. Landolfi, Daniel C. O'Neill
- Abstract要約: 広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
- 参考スコア(独自算出の注目度): 3.6942566104432886
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: There is considerable interest in predicting the pathogenicity of protein
variants in human genes. Due to the sparsity of high quality labels, recent
approaches turn to \textit{unsupervised} learning, using Multiple Sequence
Alignments (MSAs) to train generative models of natural sequence variation
within each gene. These generative models then predict variant likelihood as a
proxy to evolutionary fitness. In this work we instead combine this
evolutionary principle with pretrained protein language models (LMs), which
have already shown promising results in predicting protein structure and
function. Instead of training separate models per-gene, we find that a single
protein LM trained on broad sequence datasets can score pathogenicity for any
gene variant zero-shot, without MSAs or finetuning. We call this unsupervised
approach \textbf{VELM} (Variant Effect via Language Models), and show that it
achieves scoring performance comparable to the state of the art when evaluated
on clinically labeled variants of disease-related genes.
- Abstract(参考訳): ヒト遺伝子におけるタンパク質変異の病原性を予測することにかなりの関心がある。
高品質なラベルの広さのため、近年のアプローチでは、複数のシーケンスアライメント(MSA)を使用して、各遺伝子内の自然配列の変化の生成モデルを訓練している。
これらの生成モデルは、進化的適合性の代用として変種確率を予測する。
この研究では、この進化原理と事前訓練されたタンパク質言語モデル(LM)を組み合わせ、すでにタンパク質の構造と機能を予測する有望な結果を示している。
遺伝子ごとに異なるモデルを訓練する代わりに、広い配列のデータセットで訓練された単一のタンパク質lmは、msaや微調整なしで、あらゆる遺伝子変異ゼロショットの病原性を決定することができる。
この非教師なしアプローチを \textbf{velm} (言語モデルによる可変効果) と呼び, 臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると, 技術水準に匹敵するスコアリング性能が得られることを示した。
関連論文リスト
- Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - ProPath: Disease-Specific Protein Language Model for Variant
Pathogenicity [11.414690866985474]
ProPath と呼ばれる病原性疾患特異的テキストスクレタンパク言語モデルを提案し、シアメーゼネットワークを介して希少なミスセンス変異における擬似log-likelihood 比を捉える。
以上の結果から,ProPathはトレーニング済みのESM1bを超え,両者のデータセット間でAUCを5%以上改善した。
論文 参考訳(メタデータ) (2023-11-06T18:43:47Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。
PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。
以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T16:06:36Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。