論文の概要: Diffusion Language Models Are Versatile Protein Learners
- arxiv url: http://arxiv.org/abs/2402.18567v1
- Date: Wed, 28 Feb 2024 18:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 13:58:46.019600
- Title: Diffusion Language Models Are Versatile Protein Learners
- Title(参考訳): 拡散言語モデルはタンパク質学習者である
- Authors: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang,
Quanquan Gu
- Abstract要約: 拡散タンパク言語モデル (DPLM) は、タンパク質配列の強力な生成および予測能力を示す多用途タンパク言語モデルである。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
- 参考スコア(独自算出の注目度): 80.51049288791717
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces diffusion protein language model (DPLM), a versatile
protein language model that demonstrates strong generative and predictive
capabilities for protein sequences. We first pre-train scalable DPLMs from
evolutionary-scale protein sequences within a generative self-supervised
discrete diffusion probabilistic framework, which generalizes language modeling
for proteins in a principled way. After pre-training, DPLM exhibits the ability
to generate structurally plausible, novel, and diverse protein sequences for
unconditional generation. We further demonstrate the proposed diffusion
generative pre-training makes DPLM possess a better understanding of proteins,
making it a superior representation learner, which can be fine-tuned for
various predictive tasks, comparing favorably to ESM2 (Lin et al., 2022).
Moreover, DPLM can be tailored for various needs, which showcases its prowess
of conditional generation in several ways: (1) conditioning on partial peptide
sequences, e.g., generating scaffolds for functional motifs with high success
rate; (2) incorporating other modalities as conditioner, e.g.,
structure-conditioned generation for inverse folding; and (3) steering sequence
generation towards desired properties, e.g., satisfying specified secondary
structures, through a plug-and-play classifier guidance.
- Abstract(参考訳): 本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
我々はまず,タンパク質の言語モデリングを原則的に一般化する自己教師付き離散拡散確率フレームワーク内で,進化規模のタンパク質配列から拡張性DPLMを事前訓練する。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
さらに,提案する拡散生成前トレーニングにより,dplmはタンパク質の理解度が向上し,様々な予測タスクに最適化可能な優れた表現学習者となることを示した(lin et al.,2022)。
Moreover, DPLM can be tailored for various needs, which showcases its prowess of conditional generation in several ways: (1) conditioning on partial peptide sequences, e.g., generating scaffolds for functional motifs with high success rate; (2) incorporating other modalities as conditioner, e.g., structure-conditioned generation for inverse folding; and (3) steering sequence generation towards desired properties, e.g., satisfying specified secondary structures, through a plug-and-play classifier guidance.
関連論文リスト
- Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Diffusion on language model embeddings for protein sequence generation [0.5442686600296733]
連続拡散を利用したアミノ酸配列生成モデルであるDiMAを導入する。
優れたパフォーマンスをもたらす設計選択の影響を定量的に説明します。
我々のアプローチは、タンパク質空間の構造的および機能的多様性を正確に反映する、新規で多様なタンパク質配列を一貫して生成する。
論文 参考訳(メタデータ) (2024-03-06T14:15:20Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Generative power of a protein language model trained on multiple
sequence alignments [0.5639904484784126]
進化に関連したタンパク質配列の大規模なアンサンブルから始まる計算モデルは、タンパク質ファミリーの表現を捉えている。
MSA Transformerのような複数の配列アライメントに基づいて訓練されたタンパク質言語モデルは、この目的に対して非常に魅力的な候補である。
マスク付き言語モデリングの目的を直接利用して,MSA変換器を用いてシーケンスを生成する反復手法を提案し,検証する。
論文 参考訳(メタデータ) (2022-04-14T16:59:05Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。