論文の概要: DPLM-2: A Multimodal Diffusion Protein Language Model
- arxiv url: http://arxiv.org/abs/2410.13782v1
- Date: Thu, 17 Oct 2024 17:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:10.972787
- Title: DPLM-2: A Multimodal Diffusion Protein Language Model
- Title(参考訳): DPLM-2:マルチモーダル拡散タンパク質言語モデル
- Authors: Xinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu,
- Abstract要約: DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
- 参考スコア(独自算出の注目度): 75.98083311705182
- License:
- Abstract: Proteins are essential macromolecules defined by their amino acid sequences, which determine their three-dimensional structures and, consequently, their functions in all living organisms. Therefore, generative protein modeling necessitates a multimodal approach to simultaneously model, understand, and generate both sequences and structures. However, existing methods typically use separate models for each modality, limiting their ability to capture the intricate relationships between sequence and structure. This results in suboptimal performance in tasks that requires joint understanding and generation of both modalities. In this paper, we introduce DPLM-2, a multimodal protein foundation model that extends discrete diffusion protein language model (DPLM) to accommodate both sequences and structures. To enable structural learning with the language model, 3D coordinates are converted to discrete tokens using a lookup-free quantization-based tokenizer. By training on both experimental and high-quality synthetic structures, DPLM-2 learns the joint distribution of sequence and structure, as well as their marginals and conditionals. We also implement an efficient warm-up strategy to exploit the connection between large-scale evolutionary data and structural inductive biases from pre-trained sequence-based protein language models. Empirical evaluation shows that DPLM-2 can simultaneously generate highly compatible amino acid sequences and their corresponding 3D structures eliminating the need for a two-stage generation approach. Moreover, DPLM-2 demonstrates competitive performance in various conditional generation tasks, including folding, inverse folding, and scaffolding with multimodal motif inputs, as well as providing structure-aware representations for predictive tasks.
- Abstract(参考訳): タンパク質はアミノ酸配列によって定義される必須の高分子であり、3次元構造を決定づけ、その結果、すべての生物で機能する。
したがって、生成タンパク質モデリングは、配列と構造の両方を同時にモデル化し、理解し、生成するために、マルチモーダルアプローチを必要とする。
しかし、既存の手法は通常、各モードに対して別々のモデルを使用し、シーケンスと構造の間の複雑な関係をキャプチャする能力を制限する。
これにより、共同理解と両方のモダリティの生成を必要とするタスクにおいて、最適以下のパフォーマンスが得られる。
本稿では,分散タンパク質言語モデル(DPLM)を拡張した多モーダルタンパク質基盤モデルDPLM-2について述べる。
言語モデルによる構造学習を実現するため、3D座標はルックアップフリー量子化ベースのトークン化器を用いて離散トークンに変換される。
DPLM-2は、実験と高品質な合成構造の両方を訓練することにより、配列と構造の結合分布と、その限界と条件を学習する。
我々はまた、大規模進化データと事前訓練されたシーケンスベースタンパク質言語モデルからの構造的帰納バイアスの関連性を利用するための効率的なウォームアップ戦略を実装した。
実証評価の結果,DPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることがわかった。
さらに、DPLM-2は、フォールディング、逆フォールディング、マルチモーダルモチーフ入力によるスキャフォールディングなど、様々な条件生成タスクにおける競合性能を示し、予測タスクのための構造認識表現を提供する。
関連論文リスト
- Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。
深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。
本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文 参考訳(メタデータ) (2024-10-24T03:38:51Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - EigenFold: Generative Protein Structure Prediction with Diffusion Models [10.24107243529341]
EigenFoldは、特定のタンパク質配列から構造分布をサンプリングする拡散生成モデリングフレームワークである。
最近のCAMEOターゲットでは、EigenFoldは0.84の中央値TMSスコアを達成し、モデルの不確実性のより包括的な画像を提供する。
論文 参考訳(メタデータ) (2023-04-05T02:46:13Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。