論文の概要: Annotation-guided Protein Design with Multi-Level Domain Alignment
- arxiv url: http://arxiv.org/abs/2404.16866v4
- Date: Thu, 12 Dec 2024 07:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 17:01:44.352333
- Title: Annotation-guided Protein Design with Multi-Level Domain Alignment
- Title(参考訳): マルチレベルドメインアライメントによるアノテーション誘導タンパク質の設計
- Authors: Chaohao Yuan, Songyou Li, Geyan Ye, Yikun Zhang, Long-Kai Huang, Wenbing Huang, Wei Liu, Jianhua Yao, Yu Rong,
- Abstract要約: マルチモーダルなタンパク質設計フレームワークPAAGを提案する。
タンパク質データベースから抽出したテキストアノテーションを統合し、シーケンス空間で制御可能な生成を行う。
具体的には、PAAGは対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができる。
- 参考スコア(独自算出の注目度): 39.79713846491306
- License:
- Abstract: The core challenge of de novo protein design lies in creating proteins with specific functions or properties, guided by certain conditions. Current models explore to generate protein using structural and evolutionary guidance, which only provide indirect conditions concerning functions and properties. However, textual annotations of proteins, especially the annotations for protein domains, which directly describe the protein's high-level functionalities, properties, and their correlation with target amino acid sequences, remain unexplored in the context of protein design tasks. In this paper, we propose Protein-Annotation Alignment Generation, PAAG, a multi-modality protein design framework that integrates the textual annotations extracted from protein database for controllable generation in sequence space. Specifically, within a multi-level alignment module, PAAG can explicitly generate proteins containing specific domains conditioned on the corresponding domain annotations, and can even design novel proteins with flexible combinations of different kinds of annotations. Our experimental results underscore the superiority of the aligned protein representations from PAAG over 7 prediction tasks. Furthermore, PAAG demonstrates a significant increase in generation success rate (24.7% vs 4.7% in zinc finger, and 54.3% vs 22.0% in the immunoglobulin domain) in comparison to the existing model. We anticipate that PAAG will broaden the horizons of protein design by leveraging the knowledge from between textual annotation and proteins.
- Abstract(参考訳): デ・ノボタンパク質の設計の核となる課題は、特定の条件によって誘導される特定の機能や性質を持つタンパク質を作成することである。
現在のモデルでは、機能や性質に関する間接的な条件のみを提供する構造的および進化的ガイダンスを用いてタンパク質の生成を探求している。
しかし、タンパク質のテキストアノテーション、特にタンパク質ドメインのアノテーションは、タンパク質の高レベルな機能、性質、および標的アミノ酸配列との相関を直接記述しており、タンパク質設計タスクの文脈では未解明のままである。
本稿では,タンパク質データベースから抽出したテキストアノテーションを統合し,配列空間における制御可能な生成を行う多モードタンパク質設計フレームワークPAAGを提案する。
具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができ、異なる種類のアノテーションの柔軟な組み合わせで新しいタンパク質を設計することもできる。
実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。
さらにPAAGは、既存のモデルと比較して、世代成功率(亜鉛指24.7%、免疫グロブリン領域54.3%対22.0%)が著しく上昇している。
我々はPAAGが、テキストアノテーションとタンパク質間の知識を活用することで、タンパク質設計の地平を広げることを期待している。
関連論文リスト
- EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。
EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。
実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文 参考訳(メタデータ) (2024-12-16T10:01:33Z) - ProtDAT: A Unified Framework for Protein Sequence Design from Any Protein Text Description [7.198238666986253]
記述型テキスト入力からタンパク質を設計できるde novo微細化フレームワークを提案する。
Prot DATは、タンパク質データの本質的な特性に基づいて、配列とテキストを分離されたエンティティではなく、結合的な全体として統一する。
実験の結果,Prot DATはタンパク質配列生成の最先端性能を実現し,有理性,機能,構造的類似性,妥当性に優れていた。
論文 参考訳(メタデータ) (2024-12-05T11:05:46Z) - ProteinWeaver: A Divide-and-Assembly Approach for Protein Backbone Design [61.19456204667385]
本稿では,タンパク質のバックボーン設計のための2段階フレームワークであるProteinWeaverを紹介する。
プロテインウィーバーは、多用途ドメインアセンブリを通じて高品質で新規なタンパク質のバックボーンを生成する。
分割組立パラダイムを導入することにより、タンパク質工学を進歩させ、機能的タンパク質設計のための新たな道を開く。
論文 参考訳(メタデータ) (2024-11-08T08:10:49Z) - ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding [22.610060675922536]
本稿では,最先端のマルチモーダルタンパク質チャットシステムであるProteinGPTを紹介する。
タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層とシームレスに統合し、正確な表現適応を行う。
注釈付き132,092タンパク質の大規模データセットをトレーニングし、GPT-4oを用いて命令調整プロセスを最適化する。
実験により、タンパク質GPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-08-21T06:16:22Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。