論文の概要: Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design
- arxiv url: http://arxiv.org/abs/2106.13058v1
- Date: Thu, 24 Jun 2021 14:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 14:51:28.412353
- Title: Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design
- Title(参考訳): Fold2Seq:タンパク質設計のための複合配列(1D)-Fold(3D)埋め込みに基づく生成モデル
- Authors: Yue Cao and Payel Das and Vijil Chenthamarakshan and Pin-Yu Chen and
Igor Melnyk and Yang Shen
- Abstract要約: Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
- 参考スコア(独自算出の注目度): 70.27706384570723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing novel protein sequences for a desired 3D topological fold is a
fundamental yet non-trivial task in protein engineering. Challenges exist due
to the complex sequence--fold relationship, as well as the difficulties to
capture the diversity of the sequences (therefore structures and functions)
within a fold. To overcome these challenges, we propose Fold2Seq, a novel
transformer-based generative framework for designing protein sequences
conditioned on a specific target fold. To model the complex sequence--structure
relationship, Fold2Seq jointly learns a sequence embedding using a transformer
and a fold embedding from the density of secondary structural elements in 3D
voxels. On test sets with single, high-resolution and complete structure inputs
for individual folds, our experiments demonstrate improved or comparable
performance of Fold2Seq in terms of speed, coverage, and reliability for
sequence design, when compared to existing state-of-the-art methods that
include data-driven deep generative models and physics-based RosettaDesign. The
unique advantages of fold-based Fold2Seq, in comparison to a structure-based
deep model and RosettaDesign, become more evident on three additional
real-world challenges originating from low-quality, incomplete, or ambiguous
input structures. Source code and data are available at
https://github.com/IBM/fold2seq.
- Abstract(参考訳): 所望の3Dトポロジカルフォールドのための新規なタンパク質配列を設計することは、タンパク質工学の基本的な作業である。
問題となるのは、複雑なシーケンス-フォールドの関係と、折りたたみ内のシーケンス(その構造と関数)の多様性を捉えるのが困難であることである。
このような課題を克服するため,我々は,特定の標的フォールドに条件付けられたタンパク質配列を設計するためのトランスフォーマティブベースの生成フレームワークfold2seqを提案する。
複雑なシーケンス-構造関係をモデル化するために、fold2seqは3dボクセル内の二次構造要素の密度からトランスフォーマーとフォールドを用いたシーケンス埋め込みを共同で学習する。
データ駆動の深部生成モデルや物理ベースのRosettaDesignを含む既存の最先端手法と比較して,Fold2Seqの高速,カバレッジ,信頼性の観点から,単一,高分解能,かつ完全な構造入力を持つテストセットについて,Fold2Seqの性能および同等の性能を実証した。
fold-based fold2seqのユニークな利点は、構造ベースの深層モデルやrosettadesignと比較して、低品質、不完全、曖昧な入力構造に由来する3つの実世界の課題においてより顕著になる。
ソースコードとデータはhttps://github.com/ibm/fold2seqで入手できる。
関連論文リスト
- Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding [0.0]
逆折り畳みは、複数の列が同じ構造に折り畳むことができる1対多の問題である。
RL-DIFは、逆折り畳みのカテゴリー的拡散モデルであり、シーケンス回復に基づいて事前訓練され、強化学習によって調整される。
実験の結果、RL-DIFはCATH 4.2で29%の折りたたみ可能な多様性を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-22T16:50:34Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models [65.82630283336051]
拡散生成モデルの既存のトレーニングスキームにより,次元と属性の組み合わせによって区切られた空間が十分に標本化されていないことを示す。
構造を完全に活用するプロセスを構築し,ComboStocという名前でこの問題に対処する。
論文 参考訳(メタデータ) (2024-05-22T15:23:10Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Deep Non-rigid Structure-from-Motion: A Sequence-to-Sequence Translation Perspective [81.56957468529602]
本稿では,シーケンス・ツー・シーケンス翻訳の観点から,ディープNASfMをモデル化する。
まず,1つのフレームから初期非剛体形状とカメラの動きを推定するために,形状運動予測器を適用した。
そこで我々は,カメラの動きと複雑な非剛体形状をモデル化するためのコンテキストモデリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-10T17:13:52Z) - Benchmarking deep generative models for diverse antibody sequence design [18.515971640245997]
シーケンスのみから、あるいはシーケンスと構造を共同で学習する深層生成モデルは、このタスクにおいて印象的なパフォーマンスを示している。
最近提案されたタンパク質設計のための3つの深い生成フレームワークについて考察する: (AR) 配列ベースの自己回帰生成モデル、(GVP) 正確な構造ベースのグラフニューラルネットワーク、そして3次元折り畳みのファジィでスケールフリーな表現を利用するFold2Seq。
我々は,これらのモデルを,機能的含意に高い多様性を持つ設計配列を必要とする抗体配列の計算設計のタスクに基づいてベンチマークする。
論文 参考訳(メタデータ) (2021-11-12T16:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。