論文の概要: Unsupervised language models for disease variant prediction
- arxiv url: http://arxiv.org/abs/2212.03979v1
- Date: Wed, 7 Dec 2022 22:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:26:28.469785
- Title: Unsupervised language models for disease variant prediction
- Title(参考訳): 疾患変異予測のための教師なし言語モデル
- Authors: Allan Zhou, Nicholas C. Landolfi, Daniel C. O'Neill
- Abstract要約: 広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。
臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
- 参考スコア(独自算出の注目度): 3.6942566104432886
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: There is considerable interest in predicting the pathogenicity of protein
variants in human genes. Due to the sparsity of high quality labels, recent
approaches turn to \textit{unsupervised} learning, using Multiple Sequence
Alignments (MSAs) to train generative models of natural sequence variation
within each gene. These generative models then predict variant likelihood as a
proxy to evolutionary fitness. In this work we instead combine this
evolutionary principle with pretrained protein language models (LMs), which
have already shown promising results in predicting protein structure and
function. Instead of training separate models per-gene, we find that a single
protein LM trained on broad sequence datasets can score pathogenicity for any
gene variant zero-shot, without MSAs or finetuning. We call this unsupervised
approach \textbf{VELM} (Variant Effect via Language Models), and show that it
achieves scoring performance comparable to the state of the art when evaluated
on clinically labeled variants of disease-related genes.
- Abstract(参考訳): ヒト遺伝子におけるタンパク質変異の病原性を予測することにかなりの関心がある。
高品質なラベルの広さのため、近年のアプローチでは、複数のシーケンスアライメント(MSA)を使用して、各遺伝子内の自然配列の変化の生成モデルを訓練している。
これらの生成モデルは、進化的適合性の代用として変種確率を予測する。
この研究では、この進化原理と事前訓練されたタンパク質言語モデル(LM)を組み合わせ、すでにタンパク質の構造と機能を予測する有望な結果を示している。
遺伝子ごとに異なるモデルを訓練する代わりに、広い配列のデータセットで訓練された単一のタンパク質lmは、msaや微調整なしで、あらゆる遺伝子変異ゼロショットの病原性を決定することができる。
この非教師なしアプローチを \textbf{velm} (言語モデルによる可変効果) と呼び, 臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると, 技術水準に匹敵するスコアリング性能が得られることを示した。
関連論文リスト
- xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - ProPath: Disease-Specific Protein Language Model for Variant
Pathogenicity [11.414690866985474]
ProPath と呼ばれる病原性疾患特異的テキストスクレタンパク言語モデルを提案し、シアメーゼネットワークを介して希少なミスセンス変異における擬似log-likelihood 比を捉える。
以上の結果から,ProPathはトレーニング済みのESM1bを超え,両者のデータセット間でAUCを5%以上改善した。
論文 参考訳(メタデータ) (2023-11-06T18:43:47Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。
提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-06-21T12:44:52Z) - PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。
PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。
以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-09T16:06:36Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。