論文の概要: A Text-guided Protein Design Framework
- arxiv url: http://arxiv.org/abs/2302.04611v3
- Date: Mon, 12 Aug 2024 16:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:29:38.962287
- Title: A Text-guided Protein Design Framework
- Title(参考訳): テキスト誘導型タンパク質設計フレームワーク
- Authors: Shengchao Liu, Yanjing Li, Zhuoxinran Li, Anthony Gitter, Yutao Zhu, Jiarui Lu, Zhao Xu, Weili Nie, Arvind Ramanathan, Chaowei Xiao, Jian Tang, Hongyu Guo, Anima Anandkumar,
- Abstract要約: 本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
- 参考スコア(独自算出の注目度): 106.79061950107922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current AI-assisted protein design mainly utilizes protein sequential and structural information. Meanwhile, there exists tremendous knowledge curated by humans in the text format describing proteins' high-level functionalities. Yet, whether the incorporation of such text data can help protein design tasks has not been explored. To bridge this gap, we propose ProteinDT, a multi-modal framework that leverages textual descriptions for protein design. ProteinDT consists of three subsequent steps: ProteinCLAP which aligns the representation of two modalities, a facilitator that generates the protein representation from the text modality, and a decoder that creates the protein sequences from the representation. To train ProteinDT, we construct a large dataset, SwissProtCLAP, with 441K text and protein pairs. We quantitatively verify the effectiveness of ProteinDT on three challenging tasks: (1) over 90\% accuracy for text-guided protein generation; (2) best hit ratio on 12 zero-shot text-guided protein editing tasks; (3) superior performance on four out of six protein property prediction benchmarks.
- Abstract(参考訳): 現在のAI支援タンパク質の設計は、主にタンパク質のシーケンシャルな情報と構造的な情報を利用する。
一方、タンパク質の高レベルの機能を記述するテキスト形式には、人間によってキュレーションされた膨大な知識が存在する。
しかし、このようなテキストデータの組み入れがタンパク質設計のタスクに役立つかどうかはまだ検討されていない。
このギャップを埋めるため,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
ProteinDTをトレーニングするために,441Kテキストとタンパク質ペアを備えた大規模なデータセットSwissProtCLAPを構築した。
本研究では,(1)テキスト誘導タンパク質生成における90%以上精度,(2)ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率,(3)タンパク質特性予測ベンチマーク6項目中4項目における優れた性能の3つの課題に対するProteinDTの有効性を定量的に検証した。
関連論文リスト
- ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding [22.610060675922536]
本稿では,最先端のマルチモーダルタンパク質チャットシステムであるProteinGPTを紹介する。
タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層とシームレスに統合し、正確な表現適応を行う。
注釈付き132,092タンパク質の大規模データセットをトレーニングし、GPT-4oを用いて命令調整プロセスを最適化する。
実験により、タンパク質GPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-08-21T06:16:22Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - Functional Protein Design with Local Domain Alignment [39.79713846491306]
本稿では,タンパク質データベースから抽出したテキストアノテーションを組み込んだマルチモーダルなタンパク質設計フレームワークであるProtein-Alignment Generation (PAAG)を提案する。
具体的には、マルチレベルアライメントモジュール内でPAAGは、対応するドメインアノテーションに条件付けられた特定のドメインを含むタンパク質を明示的に生成することができる。
実験の結果,PAAGのタンパク質表現が7つの予測タスクよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-18T09:37:54Z) - Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Data-Efficient Protein 3D Geometric Pretraining via Refinement of
Diffused Protein Structure Decoy [42.49977473599661]
有意義なタンパク質表現の学習は、構造に基づく薬物設計のような様々な生物学的下流のタスクにとって重要である。
本稿では,タンパク質事前学習のための統一的なフレームワークと,幾何学的,データ効率,およびタンパク質特異的プリテキストタスクであるRefineDiffを提案する。
論文 参考訳(メタデータ) (2023-02-05T14:13:32Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。