論文の概要: Functional Protein Design with Local Domain Alignment
- arxiv url: http://arxiv.org/abs/2404.16866v1
- Date: Thu, 18 Apr 2024 09:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 18:14:01.170396
- Title: Functional Protein Design with Local Domain Alignment
- Title(参考訳): 局所ドメインアライメントを用いたタンパク質の機能設計
- Authors: Chaohao Yuan, Songyou Li, Geyan Ye, Yikun Zhang, Long-Kai Huang, Wenbing Huang, Wei Liu, Jianhua Yao, Yu Rong,
- Abstract要約: 本稿では,タンパク質データベースから抽出したテキストアノテーションを組み込んだマルチモーダルなタンパク質設計フレームワークであるProtein-Alignment Generation (PAAG)を提案する。
具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができる。
実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 39.79713846491306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core challenge of de novo protein design lies in creating proteins with specific functions or properties, guided by certain conditions. Current models explore to generate protein using structural and evolutionary guidance, which only provide indirect conditions concerning functions and properties. However, textual annotations of proteins, especially the annotations for protein domains, which directly describe the protein's high-level functionalities, properties, and their correlation with target amino acid sequences, remain unexplored in the context of protein design tasks. In this paper, we propose Protein-Annotation Alignment Generation (PAAG), a multi-modality protein design framework that integrates the textual annotations extracted from protein database for controllable generation in sequence space. Specifically, within a multi-level alignment module, PAAG can explicitly generate proteins containing specific domains conditioned on the corresponding domain annotations, and can even design novel proteins with flexible combinations of different kinds of annotations. Our experimental results underscore the superiority of the aligned protein representations from PAAG over 7 prediction tasks. Furthermore, PAAG demonstrates a nearly sixfold increase in generation success rate (24.7% vs 4.7% in zinc finger, and 54.3% vs 8.7% in the immunoglobulin domain) in comparison to the existing model.
- Abstract(参考訳): デ・ノボタンパク質の設計の核となる課題は、特定の条件によって誘導される特定の機能や性質を持つタンパク質を作成することである。
現在のモデルでは、機能や性質に関する間接的な条件のみを提供する構造的および進化的ガイダンスを用いてタンパク質の生成を探求している。
しかし、タンパク質のテキストアノテーション、特にタンパク質ドメインのアノテーションは、タンパク質の高レベルな機能、性質、および標的アミノ酸配列との相関を直接記述しており、タンパク質設計タスクの文脈では未解明のままである。
本稿では,タンパク質データベースから抽出したテキストアノテーションを組み込んだマルチモーダルなタンパク質設計フレームワークであるProtein-Annotation Alignment Generation (PAAG)を提案する。
具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができ、異なる種類のアノテーションの柔軟な組み合わせで新しいタンパク質を設計することもできる。
実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。
さらにPAAGは、既存のモデルと比較して6倍近い世代の成功率(亜鉛指24.7%、免疫グロブリンドメイン54.3%、免疫グロブリンドメイン8.7%)を示す。
関連論文リスト
- NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - EvolMPNN: Predicting Mutational Effect on Homologous Proteins by
Evolution Encoding [8.348896353632165]
本稿では進化を意識したメッセージパッシングニューラルネットワークであるEvolMPNNを提案し,進化を意識したタンパク質の埋め込みを学習する。
我々のモデルは最先端の手法よりも最大6.4%良い結果を示し、大きな事前学習モデルと比較して36倍の高速化が得られる。
論文 参考訳(メタデータ) (2024-02-20T23:06:21Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - A Text-guided Protein Design Framework [109.18157766856196]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
論文 参考訳(メタデータ) (2023-02-09T12:59:16Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Generative De Novo Protein Design with Global Context [36.21545615114117]
タンパク質構造予測の逆は、定義された構造に折り畳まれる新しいタンパク質配列を得ることを目的としている。
計算タンパク質の設計に関する最近の研究は、局所的な位置情報を持つ所望のバックボーン構造の設計シーケンスについて研究している。
局所モジュールとグローバルモジュールからなるGCA(Global-Context Aware Generative de novo protein design method)を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:55:01Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Deep Generative Modeling for Protein Design [0.0]
ディープラーニングアプローチは、画像分類や自然言語処理などの分野で画期的な成果を上げている。
タンパク質の遺伝子モデルが開発され、既知のタンパク質配列を全て含む、特定のタンパク質ファミリーをモデル化する、または個々のタンパク質のダイナミクスを外挿する。
本稿では、タンパク質のモデリングに最も成功した5種類の生成モデルについて論じ、ガイドされたタンパク質設計のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-08-31T14:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。