論文の概要: TaxDiff: Taxonomic-Guided Diffusion Model for Protein Sequence
Generation
- arxiv url: http://arxiv.org/abs/2402.17156v1
- Date: Tue, 27 Feb 2024 02:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:02:47.005594
- Title: TaxDiff: Taxonomic-Guided Diffusion Model for Protein Sequence
Generation
- Title(参考訳): TaxDiff:タンパク質配列生成のための分類学的誘導拡散モデル
- Authors: Lin Zongying, Li Hao, Lv Liuzhenghao, Lin Bin, Zhang Junwu, Chen
Calvin Yu-Chian, Yuan Li, Tian Yonghong
- Abstract要約: TaxDiffは、制御可能なタンパク質配列生成のための分類学的誘導拡散モデルである。
生物種の情報と拡散モデルの生成能力を組み合わせて、構造的に安定なタンパク質を生成する。
実験により、TaxDiffは複数のタンパク質配列生成ベンチマークで一貫してより良いパフォーマンスを達成できることが示された。
- 参考スコア(独自算出の注目度): 5.390634039309384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing protein sequences with specific biological functions and structural
stability is crucial in biology and chemistry. Generative models already
demonstrated their capabilities for reliable protein design. However, previous
models are limited to the unconditional generation of protein sequences and
lack the controllable generation ability that is vital to biological tasks. In
this work, we propose TaxDiff, a taxonomic-guided diffusion model for
controllable protein sequence generation that combines biological species
information with the generative capabilities of diffusion models to generate
structurally stable proteins within the sequence space. Specifically, taxonomic
control information is inserted into each layer of the transformer block to
achieve fine-grained control. The combination of global and local attention
ensures the sequence consistency and structural foldability of
taxonomic-specific proteins. Extensive experiments demonstrate that TaxDiff can
consistently achieve better performance on multiple protein sequence generation
benchmarks in both taxonomic-guided controllable generation and unconditional
generation. Remarkably, the sequences generated by TaxDiff even surpass those
produced by direct-structure-generation models in terms of confidence based on
predicted structures and require only a quarter of the time of models based on
the diffusion model. The code for generating proteins and training new versions
of TaxDiff is available at:https://github.com/Linzy19/TaxDiff.
- Abstract(参考訳): 特定の生物学的機能と構造安定性を持つタンパク質配列を設計することは、生物学や化学において重要である。
生成モデルはすでに信頼できるタンパク質設計の能力を実証している。
しかし、以前のモデルはタンパク質配列の無条件生成に制限されており、生物学的タスクに不可欠な制御可能な生成能力が欠如している。
本研究では,生物種情報と拡散モデルの生成能力を組み合わせて,配列空間内で構造的に安定なタンパク質を生成する,制御可能なタンパク質配列生成のための分類学的拡散モデルであるtaxdiffを提案する。
具体的には、変圧器ブロックの各層に分類制御情報を挿入して細粒度制御を行う。
グローバルおよび局所的な注意の組み合わせにより、分類学的特異的タンパク質の配列整合性と構造的折りたたみ性が保証される。
広範囲な実験により、TaxDiffは、分類学的誘導制御可能世代と無条件生成の両方において、複数のタンパク質配列生成ベンチマークにおいて、一貫してより良い性能を達成できることが示された。
注目すべきは、TaxDiffが生成したシーケンスは、予測された構造に基づく信頼度の観点から直接構造生成モデルによって生成されたシーケンスを超え、拡散モデルに基づくモデルの4分の1しか必要としないことだ。
タンパク質の生成と新しいバージョンのTaxDiffのトレーニングのためのコードは、https://github.com/Linzy19/TaxDiffで公開されている。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Protein Conformation Generation via Force-Guided SE(3) Diffusion Models [48.48934625235448]
新しいタンパク質コンホメーションを生成するために、深層生成モデリング技術が用いられている。
本稿では,タンパク質コンフォメーション生成のための力誘導SE(3)拡散モデルConfDiffを提案する。
論文 参考訳(メタデータ) (2024-03-21T02:44:08Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - EigenFold: Generative Protein Structure Prediction with Diffusion Models [10.24107243529341]
EigenFoldは、特定のタンパク質配列から構造分布をサンプリングする拡散生成モデリングフレームワークである。
最近のCAMEOターゲットでは、EigenFoldは0.84の中央値TMSスコアを達成し、モデルの不確実性のより包括的な画像を提供する。
論文 参考訳(メタデータ) (2023-04-05T02:46:13Z) - ProGen2: Exploring the Boundaries of Protein Language Models [15.82416400246896]
タンパク質言語モデルであるProGen2を導入し、最大6.4Bのパラメータに拡張する。
ProGen2モデルは、観察された進化系列の分布を捉える際に、最先端の性能を示す。
モデルのサイズが大きくなり, タンパク質配列の数が多くなりつつあるため, タンパク質配列モデルに提供されるデータ分布に重点を置く必要があることが示唆された。
論文 参考訳(メタデータ) (2022-06-27T17:55:02Z) - Protein Structure and Sequence Generation with Equivariant Denoising
Diffusion Probabilistic Models [3.5450828190071646]
バイオエンジニアリングにおける重要な課題は、特定の3D構造と標的機能を可能にする化学的性質を持つタンパク質を設計することである。
タンパク質の構造と配列の両方の生成モデルを導入し、従来の分子生成モデルよりもはるかに大きなスケールで操作できる。
論文 参考訳(メタデータ) (2022-05-26T16:10:09Z) - ProGen: Language Modeling for Protein Generation [47.32931317203297]
タンパク質工学のための生成モデリングは、合成生物学、医学、物質科学における根本的な問題を解決する鍵となる。
コストのかかる構造アノテーションが欠如しているタンパク質の指数関数的に増加する集合を活用するために、タンパク質工学を教師なしシーケンス生成問題として採用する。
論文 参考訳(メタデータ) (2020-03-08T04:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。