論文の概要: Protein Design with Dynamic Protein Vocabulary
- arxiv url: http://arxiv.org/abs/2505.18966v1
- Date: Sun, 25 May 2025 03:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.78827
- Title: Protein Design with Dynamic Protein Vocabulary
- Title(参考訳): 動的タンパク質語彙を用いたタンパク質設計
- Authors: Nuowei Liu, Jiahao Kuang, Yanting Liu, Changzhi Sun, Tao Ji, Yuanbin Wu, Man Lan,
- Abstract要約: 機能記述のためのテキストエンコーダと、タンパク質を設計するためのタンパク質言語モデルと、タンパク質断片を動的に検索するフラグメントエンコーダを統合した、新規なタンパク質設計アプローチであるProDVaを紹介する。
最先端のモデルと比較して、ProDVaはトレーニングデータの0.04%未満で同等の機能アライメントを実現し、さらによく折りたたまれたタンパク質を設計する。
- 参考スコア(独自算出の注目度): 22.358650729894443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Protein design is a fundamental challenge in biotechnology, aiming to design novel sequences with specific functions within the vast space of possible proteins. Recent advances in deep generative models have enabled function-based protein design from textual descriptions, yet struggle with structural plausibility. Inspired by classical protein design methods that leverage natural protein structures, we explore whether incorporating fragments from natural proteins can enhance foldability in generative models. Our empirical results show that even random incorporation of fragments improves foldability. Building on this insight, we introduce ProDVa, a novel protein design approach that integrates a text encoder for functional descriptions, a protein language model for designing proteins, and a fragment encoder to dynamically retrieve protein fragments based on textual functional descriptions. Experimental results demonstrate that our approach effectively designs protein sequences that are both functionally aligned and structurally plausible. Compared to state-of-the-art models, ProDVa achieves comparable function alignment using less than 0.04% of the training data, while designing significantly more well-folded proteins, with the proportion of proteins having pLDDT above 70 increasing by 7.38% and those with PAE below 10 increasing by 9.6%.
- Abstract(参考訳): タンパク質設計はバイオテクノロジーの基本的な課題であり、考えられるタンパク質の広大な空間内で特定の機能を持つ新規な配列を設計することを目的としている。
深層生成モデルの最近の進歩は、関数ベースのタンパク質設計をテキスト記述から可能としてきたが、構造的妥当性に苦慮している。
天然タンパク質の構造を利用する古典的なタンパク質設計法に着想を得て、天然タンパク質の断片を組み込むことで、生成モデルにおける折りたたみ性を高めることができるかどうかを探る。
実験結果から, フラグメントのランダムな組み込みにおいても, 折り畳み性が向上することが示唆された。
この知見に基づいて,機能記述のためのテキストエンコーダと,タンパク質を設計するためのタンパク質言語モデルと,テキスト機能記述に基づくタンパク質断片を動的に検索するフラグメントエンコーダを組み合わせた新規なタンパク質設計手法であるProDVaを紹介する。
実験結果から,本手法は機能的整合性と構造的整合性の両方を有するタンパク質配列を効果的に設計できることが示唆された。
最先端のモデルと比較すると、ProDVaはトレーニングデータの0.04%未満で同等の機能のアライメントを達成し、pLDDT70以上のタンパク質の割合は7.38%、PAE10未満のタンパク質は9.6%増加している。
関連論文リスト
- ProtDAT: A Unified Framework for Protein Sequence Design from Any Protein Text Description [7.198238666986253]
記述型テキスト入力からタンパク質を設計できるde novo微細化フレームワークを提案する。
Prot DATは、タンパク質データの本質的な特性に基づいて、配列とテキストを分離されたエンティティではなく、結合的な全体として統一する。
実験の結果,Prot DATはタンパク質配列生成の最先端性能を実現し,有理性,機能,構造的類似性,妥当性に優れていた。
論文 参考訳(メタデータ) (2024-12-05T11:05:46Z) - ProteinWeaver: A Divide-and-Assembly Approach for Protein Backbone Design [61.19456204667385]
本稿では,タンパク質のバックボーン設計のための2段階フレームワークであるProteinWeaverを紹介する。
プロテインウィーバーは、多用途ドメインアセンブリを通じて高品質で新規なタンパク質のバックボーンを生成する。
分割組立パラダイムを導入することにより、タンパク質工学を進歩させ、機能的タンパク質設計のための新たな道を開く。
論文 参考訳(メタデータ) (2024-11-08T08:10:49Z) - Model-based reinforcement learning for protein backbone design [1.7383284836821535]
我々はAlphaZeroを用いてタンパク質のバックボーンを生成することを提案する。
既存のモンテカルロ木探索(MCTS)フレームワークを,新しいしきい値に基づく報酬と二次目的を取り入れて拡張する。
AlphaZeroは、トップダウンのタンパク質設計タスクにおいて、ベースラインMCTSを100%以上上回っている。
論文 参考訳(メタデータ) (2024-05-03T10:24:33Z) - Annotation-guided Protein Design with Multi-Level Domain Alignment [39.79713846491306]
マルチモーダルなタンパク質設計フレームワークPAAGを提案する。
タンパク質データベースから抽出したテキストアノテーションを統合し、シーケンス空間で制御可能な生成を行う。
具体的には、PAAGは対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができる。
論文 参考訳(メタデータ) (2024-04-18T09:37:54Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Deep Generative Modeling for Protein Design [0.0]
ディープラーニングアプローチは、画像分類や自然言語処理などの分野で画期的な成果を上げている。
タンパク質の遺伝子モデルが開発され、既知のタンパク質配列を全て含む、特定のタンパク質ファミリーをモデル化する、または個々のタンパク質のダイナミクスを外挿する。
本稿では、タンパク質のモデリングに最も成功した5種類の生成モデルについて論じ、ガイドされたタンパク質設計のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-08-31T14:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。