Fugu-MT 論文翻訳(概要): Annotation-guided Protein Design with Multi-Level Domain Alignment

論文の概要: Annotation-guided Protein Design with Multi-Level Domain Alignment

arxiv url: http://arxiv.org/abs/2404.16866v3
Date: Wed, 11 Dec 2024 15:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.317335
Title: Annotation-guided Protein Design with Multi-Level Domain Alignment
Title（参考訳）: マルチレベルドメインアライメントによるアノテーション誘導タンパク質の設計
Authors: Chaohao Yuan, Songyou Li, Geyan Ye, Yikun Zhang, Long-Kai Huang, Wenbing Huang, Wei Liu, Jianhua Yao, Yu Rong,
Abstract要約: マルチモーダルなタンパク質設計フレームワークPAAGを提案する。タンパク質データベースから抽出したテキストアノテーションを統合し、シーケンス空間で制御可能な生成を行う。具体的には、PAAGは対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができる。
参考スコア（独自算出の注目度）: 39.79713846491306
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The core challenge of de novo protein design lies in creating proteins with specific functions or properties, guided by certain conditions. Current models explore to generate protein using structural and evolutionary guidance, which only provide indirect conditions concerning functions and properties. However, textual annotations of proteins, especially the annotations for protein domains, which directly describe the protein's high-level functionalities, properties, and their correlation with target amino acid sequences, remain unexplored in the context of protein design tasks. In this paper, we propose Protein-Annotation Alignment Generation, PAAG, a multi-modality protein design framework that integrates the textual annotations extracted from protein database for controllable generation in sequence space. Specifically, within a multi-level alignment module, PAAG can explicitly generate proteins containing specific domains conditioned on the corresponding domain annotations, and can even design novel proteins with flexible combinations of different kinds of annotations. Our experimental results underscore the superiority of the aligned protein representations from PAAG over 7 prediction tasks. Furthermore, PAAG demonstrates a significant increase in generation success rate (24.7% vs 4.7% in zinc finger, and 54.3% vs 22.0% in the immunoglobulin domain) in comparison to the existing model. We anticipate that PAAG will broaden the horizons of protein design by leveraging the knowledge from between textual annotation and proteins.
Abstract（参考訳）: デ・ノボタンパク質の設計の核となる課題は、特定の条件によって誘導される特定の機能や性質を持つタンパク質を作成することである。現在のモデルでは、機能や性質に関する間接的な条件のみを提供する構造的および進化的ガイダンスを用いてタンパク質の生成を探求している。しかし、タンパク質のテキストアノテーション、特にタンパク質ドメインのアノテーションは、タンパク質の高レベルな機能、性質、および標的アミノ酸配列との相関を直接記述しており、タンパク質設計タスクの文脈では未解明のままである。本稿では,タンパク質データベースから抽出したテキストアノテーションを統合し,配列空間における制御可能な生成を行う多モードタンパク質設計フレームワークPAAGを提案する。具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができ、異なる種類のアノテーションの柔軟な組み合わせで新しいタンパク質を設計することもできる。実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。さらにPAAGは、既存のモデルと比較して、世代成功率(亜鉛指24.7%、免疫グロブリン領域54.3%対22.0%)が著しく上昇している。我々はPAAGが、テキストアノテーションとタンパク質間の知識を活用することで、タンパク質設計の地平を広げることを期待している。

関連論文リスト

Protein Design with Dynamic Protein Vocabulary [22.358650729894443]
機能記述のためのテキストエンコーダと、タンパク質を設計するためのタンパク質言語モデルと、タンパク質断片を動的に検索するフラグメントエンコーダを統合した、新規なタンパク質設計アプローチであるProDVaを紹介する。最先端のモデルと比較して、ProDVaはトレーニングデータの0.04%未満で同等の機能アライメントを実現し、さらによく折りたたまれたタンパク質を設計する。
論文参考訳（メタデータ） (2025-05-25T03:50:50Z)
EvoLlama: Enhancing LLMs' Understanding of Proteins via Multimodal Structure and Sequence Representations [28.298740080002077]
タンパク質を理解するための現在の大規模言語モデル(LLM)は、主にアミノ酸配列をテキストモダリティとして扱う。 EvoLlamaは構造ベースのエンコーダ、配列ベースのタンパク質エンコーダ、およびタンパク質理解のためのLLMを接続するフレームワークである。実験の結果,EvoLlamaのタンパク質理解能力は著しく向上した。
論文参考訳（メタデータ） (2024-12-16T10:01:33Z)
ProtDAT: A Unified Framework for Protein Sequence Design from Any Protein Text Description [7.198238666986253]
記述型テキスト入力からタンパク質を設計できるde novo微細化フレームワークを提案する。 Prot DATは、タンパク質データの本質的な特性に基づいて、配列とテキストを分離されたエンティティではなく、結合的な全体として統一する。実験の結果,Prot DATはタンパク質配列生成の最先端性能を実現し,有理性,機能,構造的類似性,妥当性に優れていた。
論文参考訳（メタデータ） (2024-12-05T11:05:46Z)
ProteinWeaver: A Divide-and-Assembly Approach for Protein Backbone Design [61.19456204667385]
本稿では,タンパク質のバックボーン設計のための2段階フレームワークであるProteinWeaverを紹介する。プロテインウィーバーは、多用途ドメインアセンブリを通じて高品質で新規なタンパク質のバックボーンを生成する。分割組立パラダイムを導入することにより、タンパク質工学を進歩させ、機能的タンパク質設計のための新たな道を開く。
論文参考訳（メタデータ） (2024-11-08T08:10:49Z)
ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding [22.610060675922536]
本稿では,最先端のマルチモーダルタンパク質チャットシステムであるProteinGPTを紹介する。タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層とシームレスに統合し、正確な表現適応を行う。注釈付き132,092タンパク質の大規模データセットをトレーニングし、GPT-4oを用いて命令調整プロセスを最適化する。実験により、タンパク質GPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。
論文参考訳（メタデータ） (2024-08-21T06:16:22Z)
A PLMs based protein retrieval framework [4.110243520064533]
本稿では,配列類似性に対するバイアスを緩和する新規なタンパク質検索フレームワークを提案する。我々のフレームワークは、タンパク質の配列を高次元の特徴空間に埋め込むために、タンパク質言語モデル(PLM)を主導的に活用する。大規模な実験により、我々のフレームワークは類似タンパク質と異種タンパク質の両方を等しく回収できることが示された。
論文参考訳（メタデータ） (2024-07-16T09:52:42Z)
ProtFAD: Introducing function-aware domains as implicit modality towards protein function perception [0.3928425951824076]
本稿では,タンパク質の異なる機能を識別するために,機能認識ドメイン表現とドメイン結合型学習戦略を提案する。提案手法は, 様々なベンチマークにおいて, 最先端の手法よりも大きく, 包括的に優れている。
論文参考訳（メタデータ） (2024-05-24T02:26:45Z)
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (2024-05-21T08:06:13Z)
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。 PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文参考訳（メタデータ） (2024-03-30T05:32:42Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
A Text-guided Protein Design Framework [106.79061950107922]
本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
論文参考訳（メタデータ） (2023-02-09T12:59:16Z)
Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-02-03T10:49:52Z)
Generative De Novo Protein Design with Global Context [36.21545615114117]
タンパク質構造予測の逆は、定義された構造に折り畳まれる新しいタンパク質配列を得ることを目的としている。計算タンパク質の設計に関する最近の研究は、局所的な位置情報を持つ所望のバックボーン構造の設計シーケンスについて研究している。局所モジュールとグローバルモジュールからなるGCA(Global-Context Aware Generative de novo protein design method)を提案する。
論文参考訳（メタデータ） (2022-04-21T02:55:01Z)
Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文参考訳（メタデータ） (2022-04-06T02:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。