論文の概要: Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation
- arxiv url: http://arxiv.org/abs/2405.20313v1
- Date: Thu, 30 May 2024 17:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:00:01.268984
- Title: Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation
- Title(参考訳): 条件付きタンパク質バックボーン生成のためのシーケンス強化SE(3)-フローマッチング
- Authors: Guillaume Huguet, James Vuckovic, Kilian Fatras, Eric Thibodeau-Laufer, Pablo Lemos, Riashat Islam, Cheng-Hao Liu, Jarrid Rector-Brooks, Tara Akhound-Sadegh, Michael Bronstein, Alexander Tong, Avishek Joey Bose,
- Abstract要約: タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
- 参考スコア(独自算出の注目度): 55.93511121486321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins are essential for almost all biological processes and derive their diverse functions from complex 3D structures, which are in turn determined by their amino acid sequences. In this paper, we exploit the rich biological inductive bias of amino acid sequences and introduce FoldFlow-2, a novel sequence-conditioned SE(3)-equivariant flow matching model for protein structure generation. FoldFlow-2 presents substantial new architectural features over the previous FoldFlow family of models including a protein large language model to encode sequence, a new multi-modal fusion trunk that combines structure and sequence representations, and a geometric transformer based decoder. To increase diversity and novelty of generated samples -- crucial for de-novo drug design -- we train FoldFlow-2 at scale on a new dataset that is an order of magnitude larger than PDB datasets of prior works, containing both known proteins in PDB and high-quality synthetic structures achieved through filtering. We further demonstrate the ability to align FoldFlow-2 to arbitrary rewards, e.g. increasing secondary structures diversity, by introducing a Reinforced Finetuning (ReFT) objective. We empirically observe that FoldFlow-2 outperforms previous state-of-the-art protein structure-based generative models, improving over RFDiffusion in terms of unconditional generation across all metrics including designability, diversity, and novelty across all protein lengths, as well as exhibiting generalization on the task of equilibrium conformation sampling. Finally, we demonstrate that a fine-tuned FoldFlow-2 makes progress on challenging conditional design tasks such as designing scaffolds for the VHH nanobody.
- Abstract(参考訳): タンパク質は、ほとんどすべての生物学的プロセスに必須であり、複雑な3D構造から様々な機能を誘導し、アミノ酸配列によって決定される。
本稿では,アミノ酸配列の豊富な生物学的誘導バイアスを利用して,新規な配列条件SE(3)-等価フローマッチングモデルであるFoldFlow-2を導入する。
FoldFlow-2は、配列をエンコードするタンパク質大言語モデルや、構造とシーケンス表現を組み合わせた新しいマルチモーダル融合トランク、幾何学変換器ベースのデコーダなど、以前のFoldFlowファミリにまたがる重要なアーキテクチャ上の特徴を提示する。
生成したサンプルの多様性と新規性(デノボの薬物設計に不可欠なもの)を高めるため、FoldFlow-2を、PDBの既知のタンパク質とフィルタリングによって達成された高品質な合成構造の両方を含む、以前の作業のPDBデータセットよりも桁違いの大きさのデータセットで大規模にトレーニングします。
さらに、FoldFlow-2を任意の報酬、例えば二次構造の多様性を増大させる能力について、Reinforced Finetuning (ReFT) の目的を導入して示す。
FoldFlow-2は、従来の最先端タンパク質構造に基づく生成モデルよりも優れており、設計性、多様性、新規性を含む全ての指標におけるRF拡散の非条件生成の改善、および平衡整合サンプリングのタスクにおける一般化を示すことを実証的に観察した。
最後に、細調整されたFoldFlow-2がVHHナノボディの足場設計などの条件設計タスクを進行させることを示す。
関連論文リスト
- P2DFlow: A Protein Ensemble Generative Model with SE(3) Flow Matching [8.620021796568087]
P2DFlowはSE(3)フローマッチングに基づく生成モデルであり、タンパク質の構造的アンサンブルを予測する。
ATLASのMDデータセットでトレーニングと評価を行うと、P2DFlowは他のベースラインモデルよりも優れている。
タンパク質分子シミュレーションの潜在的プロキシ剤として、P2DFlowによって生成された高品質なアンサンブルは、様々なシナリオでタンパク質の機能を理解するのに大いに役立つ。
論文 参考訳(メタデータ) (2024-11-26T08:10:12Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Improving AlphaFlow for Efficient Protein Ensembles Generation [64.10918970280603]
効率的なタンパク質アンサンブル生成を実現するために,AlphaFlow-Litと呼ばれる特徴条件付き生成モデルを提案する。
AlphaFlow-LitはAlphaFlowとオンパーで動作し、予行訓練なしで蒸留されたバージョンを上回り、47倍のサンプリング加速を達成している。
論文 参考訳(メタデータ) (2024-07-08T13:36:43Z) - SE(3)-Stochastic Flow Matching for Protein Backbone Generation [54.951832422425454]
我々はFoldFlowを紹介した。FoldFlowは,3mathrmD$の剛性運動に対するフローマッチングパラダイムに基づく,モデリング能力向上のための新しい生成モデルである。
FoldFlow生成モデルのファミリーは、タンパク質の生成モデルに対する従来のアプローチよりもいくつかの利点を提供している。
論文 参考訳(メタデータ) (2023-10-03T19:24:24Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。