論文の概要: CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2505.22869v1
- Date: Wed, 28 May 2025 21:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.542838
- Title: CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models
- Title(参考訳): CFP-Gen:拡散言語モデルによる組合せ機能タンパク質生成
- Authors: Junbo Yin, Chao Zha, Wenjia He, Chencheng Xu, Xin Gao,
- Abstract要約: CFP-Gen(CFP-Gen)は、結合型タンパク質遺伝子のための新しい拡散言語モデルである。
マルチモーダル条件を機能的、シーケンス的、構造的制約と統合することにより、de novoタンパク質の設計を可能にする。
- 参考スコア(独自算出の注目度): 16.17372298740389
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing PLMs generate protein sequences based on a single-condition constraint from a specific modality, struggling to simultaneously satisfy multiple constraints across different modalities. In this work, we introduce CFP-Gen, a novel diffusion language model for Combinatorial Functional Protein GENeration. CFP-Gen facilitates the de novo protein design by integrating multimodal conditions with functional, sequence, and structural constraints. Specifically, an Annotation-Guided Feature Modulation (AGFM) module is introduced to dynamically adjust the protein feature distribution based on composable functional annotations, e.g., GO terms, IPR domains and EC numbers. Meanwhile, the Residue-Controlled Functional Encoding (RCFE) module captures residue-wise interaction to ensure more precise control. Additionally, off-the-shelf 3D structure encoders can be seamlessly integrated to impose geometric constraints. We demonstrate that CFP-Gen enables high-throughput generation of novel proteins with functionality comparable to natural proteins, while achieving a high success rate in designing multifunctional proteins. Code and data available at https://github.com/yinjunbo/cfpgen.
- Abstract(参考訳): 既存のPLMは特定のモダリティから単一条件制約に基づいてタンパク質配列を生成し、異なるモダリティの複数の制約を同時に満たすのに苦労する。
本稿では,コンビネータ機能タンパク質生成のための新しい拡散言語モデルCFP-Genを紹介する。
CFP-Genは、マルチモーダル条件と機能的、シーケンス的、構造的制約を統合することで、デノボタンパク質の設計を促進する。
具体的には、構成可能な機能アノテーション(例えば、GO用語、IPRドメイン、EC番号)に基づいて、タンパク質の機能分布を動的に調整するために、 Annotation-Guided Feature Modulation (AGFM) モジュールが導入された。
一方、Residue-Controlled Functional Encoding (RCFE)モジュールは、残余のインタラクションをキャプチャして、より正確な制御を保証する。
さらに、既製の3D構造エンコーダをシームレスに統合して幾何学的制約を課すこともできる。
CFP-Genは、天然タンパク質に匹敵する機能性を持つ新規タンパク質を高スループットで生成し、多機能タンパク質の設計において高い成功率を達成することを実証した。
コードとデータはhttps://github.com/yinjunbo/cfpgen.comで公開されている。
関連論文リスト
- DS-ProGen: A Dual-Structure Deep Language Model for Functional Protein Design [21.43301218674909]
逆タンパク質フォールディング(英: inverse protein Folding)は、タンパク質設計の分野における重要なサブタスクである。
本稿では,機能的タンパク質設計のための二重構造深層言語モデルDS-ProGenを提案する。
バックボーン座標と表面化学および幾何学的記述子を次のアミノ酸予測パラダイムに組み込むことで、DS-ProGenは機能的に関連し、構造的に安定な配列を生成することができる。
論文 参考訳(メタデータ) (2025-05-18T18:08:35Z) - Controllable Protein Sequence Generation with LLM Preference Optimization [19.28325662879149]
我々はCtrlProtと呼ばれる新しい制御可能なタンパク質設計法を提案する。
実験により、CtrlProtは機能と構造安定性の要求を効果的に満たせることが示された。
論文 参考訳(メタデータ) (2025-01-25T00:59:12Z) - OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、シーケンス、テキスト、結合サイトデータを統合したタンパク質のためのマルチモーダルAIであるOneProtを紹介する。
ImageBindフレームワークを使用して、OneProtは軽量な微調整方式でタンパク質モダリティエンコーダの潜在空間を整列する。
この研究はマルチモーダルタンパク質モデルの地平線を広げ、薬物発見、生物触媒反応計画、タンパク質工学における変革的応用の道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文 参考訳(メタデータ) (2023-07-25T09:35:43Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。