論文の概要: DS-ProGen: A Dual-Structure Deep Language Model for Functional Protein Design
- arxiv url: http://arxiv.org/abs/2505.12511v1
- Date: Sun, 18 May 2025 18:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.276898
- Title: DS-ProGen: A Dual-Structure Deep Language Model for Functional Protein Design
- Title(参考訳): DS-ProGen:機能性タンパク質設計のための二重構造深層言語モデル
- Authors: Yanting Li, Jiyue Jiang, Zikang Wang, Ziqian Lin, Dongchen He, Yuheng Shan, Yanruisheng Shao, Jiayi Li, Xiangyu Shi, Jiuming Wang, Yanyu Chen, Yimin Fan, Han Li, Yu Li,
- Abstract要約: 逆タンパク質フォールディング(英: inverse protein Folding)は、タンパク質設計の分野における重要なサブタスクである。
本稿では,機能的タンパク質設計のための二重構造深層言語モデルDS-ProGenを提案する。
バックボーン座標と表面化学および幾何学的記述子を次のアミノ酸予測パラダイムに組み込むことで、DS-ProGenは機能的に関連し、構造的に安定な配列を生成することができる。
- 参考スコア(独自算出の注目度): 21.43301218674909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Protein Folding (IPF) is a critical subtask in the field of protein design, aiming to engineer amino acid sequences capable of folding correctly into a specified three-dimensional (3D) conformation. Although substantial progress has been achieved in recent years, existing methods generally rely on either backbone coordinates or molecular surface features alone, which restricts their ability to fully capture the complex chemical and geometric constraints necessary for precise sequence prediction. To address this limitation, we present DS-ProGen, a dual-structure deep language model for functional protein design, which integrates both backbone geometry and surface-level representations. By incorporating backbone coordinates as well as surface chemical and geometric descriptors into a next-amino-acid prediction paradigm, DS-ProGen is able to generate functionally relevant and structurally stable sequences while satisfying both global and local conformational constraints. On the PRIDE dataset, DS-ProGen attains the current state-of-the-art recovery rate of 61.47%, demonstrating the synergistic advantage of multi-modal structural encoding in protein design. Furthermore, DS-ProGen excels in predicting interactions with a variety of biological partners, including ligands, ions, and RNA, confirming its robust functional retention capabilities.
- Abstract(参考訳): Inverse Protein Folding (IPF) はタンパク質設計の分野において重要なサブタスクであり、特定の3次元の3Dコンフォメーションに正確に折り畳むことができるアミノ酸配列を設計することを目的としている。
近年、かなりの進歩が達成されているが、既存の手法は一般にバックボーン座標または分子表面の特徴のみに依存しており、正確なシーケンス予測に必要な複雑な化学的および幾何学的制約を完全に捉える能力を制限する。
この制限に対処するため、DS-ProGenは機能的タンパク質設計のための二重構造深層言語モデルであり、バックボーン幾何と表面レベルの表現を統合している。
バックボーン座標と表面化学および幾何学的記述子を次のアミノ酸予測パラダイムに組み込むことにより、DS-ProGenは、グローバルおよび局所的なコンフォメーション制約を満たすとともに、機能的に関連し、構造的に安定なシーケンスを生成することができる。
PRIDEデータセットでは、DS-ProGenが現在の最先端回復率61.47%に達し、タンパク質設計におけるマルチモーダル構造エンコーディングの相乗的優位性を示している。
さらにDS-ProGenは、リガンド、イオン、RNAを含む様々な生物学的パートナーとの相互作用を予測し、その堅牢な機能保持能力を確認する。
関連論文リスト
- A Model-Centric Review of Deep Learning for Protein Design [0.0]
ディープラーニングはタンパク質設計を変換し、正確な構造予測、シーケンス最適化、de novoタンパク質生成を可能にした。
ProtGPT2、ProteinMPNN、RFdiffusionなどの生成モデルは、自然進化に基づく制限を超えてシーケンスとバックボーンの設計を可能にした。
最近では、ESM3を含む共同シーケンス構造共設計モデルが両方のモダリティを統一されたフレームワークに統合し、設計性が向上した。
論文 参考訳(メタデータ) (2025-02-26T14:31:21Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - A Hierarchical Training Paradigm for Antibody Structure-sequence
Co-design [54.30457372514873]
抗体配列構造共設計のための階層的訓練パラダイム(HTP)を提案する。
HTPは4段階の訓練段階から構成され、それぞれが特定のタンパク質のモダリティに対応する。
実証実験により、HTPは共同設計問題において新しい最先端性能を設定できることが示されている。
論文 参考訳(メタデータ) (2023-10-30T02:39:15Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - Joint Design of Protein Sequence and Structure based on Motifs [11.731131799546489]
タンパク質のバックボーン構造と配列を共同で設計するGeoProを提案する。
GeoProは3次元(3D)バックボーン構造のための同変エンコーダと3次元幾何学でガイドされるタンパク質配列デコーダによって駆動される。
本手法はタンパク質データバンク(PDB)やUniProtに存在しない新規な$beta$-lactamasesおよびミオグロビンを発見する。
論文 参考訳(メタデータ) (2023-10-04T03:07:03Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - DProQ: A Gated-Graph Transformer for Protein Complex Structure
Assessment [7.988932562855392]
DProQは、3Dタンパク質複合体の質を予測するために設計されたゲート近傍変調グラフ変換器(GGT)である。
グラフメッセージパッシング時の情報フローを制御するために,新しいグラフトランスフォーマフレームワークにノードゲートとエッジゲートを組み込んだ。
我々の厳密な実験は、DProQがタンパク質複合体のランク付けにおいて最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2022-05-21T15:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。