Fugu-MT 論文翻訳(概要): Unsupervised language models for disease variant prediction

論文の概要: Unsupervised language models for disease variant prediction

arxiv url: http://arxiv.org/abs/2212.03979v1
Date: Wed, 7 Dec 2022 22:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-09 16:26:28.469785
Title: Unsupervised language models for disease variant prediction
Title（参考訳）: 疾患変異予測のための教師なし言語モデル
Authors: Allan Zhou, Nicholas C. Landolfi, Daniel C. O'Neill
Abstract要約: 広い配列のデータセットで訓練された1つのタンパク質LMは、あらゆる遺伝子変異ゼロショットに対して病原性を評価することができる。臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると,その評価性能は最先端技術に匹敵することがわかった。
参考スコア（独自算出の注目度）: 3.6942566104432886
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: There is considerable interest in predicting the pathogenicity of protein variants in human genes. Due to the sparsity of high quality labels, recent approaches turn to \textit{unsupervised} learning, using Multiple Sequence Alignments (MSAs) to train generative models of natural sequence variation within each gene. These generative models then predict variant likelihood as a proxy to evolutionary fitness. In this work we instead combine this evolutionary principle with pretrained protein language models (LMs), which have already shown promising results in predicting protein structure and function. Instead of training separate models per-gene, we find that a single protein LM trained on broad sequence datasets can score pathogenicity for any gene variant zero-shot, without MSAs or finetuning. We call this unsupervised approach \textbf{VELM} (Variant Effect via Language Models), and show that it achieves scoring performance comparable to the state of the art when evaluated on clinically labeled variants of disease-related genes.
Abstract（参考訳）: ヒト遺伝子におけるタンパク質変異の病原性を予測することにかなりの関心がある。高品質なラベルの広さのため、近年のアプローチでは、複数のシーケンスアライメント(MSA)を使用して、各遺伝子内の自然配列の変化の生成モデルを訓練している。これらの生成モデルは、進化的適合性の代用として変種確率を予測する。この研究では、この進化原理と事前訓練されたタンパク質言語モデル(LM)を組み合わせ、すでにタンパク質の構造と機能を予測する有望な結果を示している。遺伝子ごとに異なるモデルを訓練する代わりに、広い配列のデータセットで訓練された単一のタンパク質lmは、msaや微調整なしで、あらゆる遺伝子変異ゼロショットの病原性を決定することができる。この非教師なしアプローチを \textbf{velm} (言語モデルによる可変効果) と呼び, 臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると, 技術水準に匹敵するスコアリング性能が得られることを示した。

関連論文リスト

Modeling Gene Expression Distributional Shifts for Unseen Genetic Perturbations [44.619690829431214]
遺伝的摂動に伴う遺伝子発現の分布応答を予測するニューラルネットワークを訓練する。本モデルでは, 摂動を条件とした遺伝子レベルのヒストグラムを予測し, 高次統計値の取得において, 基準値よりも優れていた。
論文参考訳（メタデータ） (2025-07-01T06:04:28Z)
PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments [53.55710514466851]
タンパク質構造予測は、薬物の発見と生物学的機能の理解に不可欠である。ほとんどの折り畳みモデルは予測性能を高めるために多重シーケンスアライメント(MSA)に大きく依存している。我々は、事前学習されたタンパク質言語モデルからの進化的埋め込みを利用する新しいMSA設計モデルPLAMEを提案する。
論文参考訳（メタデータ） (2025-06-17T04:11:30Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
A Phylogenetic Approach to Genomic Language Modeling [0.2912705470788796]
系統樹上のヌクレオチド進化を明示的にモデル化するgLMを訓練するための新しいフレームワークを提案する。本手法では,トレーニング中の損失関数にアライメントを組み込むことで予測を行う。我々はこの枠組みを適用し、単一シーケンスのみから機能的に破壊的な変異を予測するモデルであるPhyloGPNを訓練した。
論文参考訳（メタデータ） (2025-03-04T06:53:03Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文参考訳（メタデータ） (2024-07-16T14:05:03Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文参考訳（メタデータ） (2024-02-28T18:57:56Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
ProPath: Disease-Specific Protein Language Model for Variant Pathogenicity [11.414690866985474]
ProPath と呼ばれる病原性疾患特異的テキストスクレタンパク言語モデルを提案し、シアメーゼネットワークを介して希少なミスセンス変異における擬似log-likelihood 比を捉える。以上の結果から,ProPathはトレーニング済みのESM1bを超え,両者のデータセット間でAUCを5%以上改善した。
論文参考訳（メタデータ） (2023-11-06T18:43:47Z)
Predicting protein variants with equivariant graph neural networks [0.0]
我々は,同変グラフニューラルネットワーク(EGNN)と配列に基づくアプローチによる有望なアミノ酸変異の同定能力の比較を行った。提案する構造的アプローチは, より少ない分子で訓練しながら, 配列に基づくアプローチと競合する性能を実現する。
論文参考訳（メタデータ） (2023-06-21T12:44:52Z)
PoET: A generative model of protein families as sequences-of-sequences [5.05828899601167]
本稿では,関連タンパク質の集合を配列配列として生成する過程を学習するタンパク質ファミリー全体の生成モデルを提案する。 PoETは検索拡張言語モデルとして使用することができ、任意のタンパク質ファミリーに設定された任意の変更を生成し、スコア付けすることができる。以上の結果から,PoETはタンパク質言語モデルと進化的配列モデルに優れており,全ての深さのタンパク質をまたいだ変異関数の予測が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-09T16:06:36Z)
Reprogramming Pretrained Language Models for Protein Sequence Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。 R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-05T15:55:18Z)
Plug & Play Directed Evolution of Proteins with Gradient-based Discrete MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文参考訳（メタデータ） (2022-12-20T00:26:23Z)
ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。 ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文参考訳（メタデータ） (2022-06-27T17:55:02Z)
rfPhen2Gen: A machine learning based association study of brain imaging phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文参考訳（メタデータ） (2022-03-31T20:15:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。