論文の概要: A Text-guided Protein Design Framework
- arxiv url: http://arxiv.org/abs/2302.04611v2
- Date: Sun, 3 Dec 2023 15:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:40:53.275526
- Title: A Text-guided Protein Design Framework
- Title(参考訳): テキスト誘導型タンパク質設計フレームワーク
- Authors: Shengchao Liu, Yanjing Li, Zhuoxinran Li, Anthony Gitter, Yutao Zhu,
Jiarui Lu, Zhao Xu, Weili Nie, Arvind Ramanathan, Chaowei Xiao, Jian Tang,
Hongyu Guo, Anima Anandkumar
- Abstract要約: 本稿では,タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークであるProteinDTを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
本研究では,(1)テキスト誘導タンパク質生成における90%以上の精度,(2)ゼロショットテキスト誘導タンパク質編集タスク10件のベストヒット率,(3)タンパク質特性予測ベンチマーク6件中4件の優れた性能の3つの課題に対して,ProteinDTの有効性を定量的に検証した。
- 参考スコア(独自算出の注目度): 109.18157766856196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current AI-assisted protein design mainly utilizes protein sequential and
structural information. Meanwhile, there exists tremendous knowledge curated by
humans in the text format describing proteins' high-level functionalities. Yet,
whether the incorporation of such text data can help protein design tasks has
not been explored. To bridge this gap, we propose ProteinDT, a multi-modal
framework that leverages textual descriptions for protein design. ProteinDT
consists of three subsequent steps: ProteinCLAP which aligns the representation
of two modalities, a facilitator that generates the protein representation from
the text modality, and a decoder that creates the protein sequences from the
representation. To train ProteinDT, we construct a large dataset,
SwissProtCLAP, with 441K text and protein pairs. We quantitatively verify the
effectiveness of ProteinDT on three challenging tasks: (1) over 90\% accuracy
for text-guided protein generation; (2) best hit ratio on 10 zero-shot
text-guided protein editing tasks; (3) superior performance on four out of six
protein property prediction benchmarks.
- Abstract(参考訳): 現在のAI支援タンパク質の設計は、主にタンパク質シーケンシャルおよび構造情報を利用する。
一方、タンパク質の高レベルの機能を記述するテキスト形式には、人間による膨大な知識が存在する。
しかし、このようなテキストデータの組み入れがタンパク質設計のタスクに役立つかどうかはまだ検討されていない。
このギャップを埋めるために,タンパク質設計にテキスト記述を利用するマルチモーダルフレームワークであるproteindtを提案する。
タンパク質DTは以下の3つのステップから構成される:2つのモダリティの表現を整列するProteinCLAP、テキストモダリティからタンパク質表現を生成するファシリテーター、表現からタンパク質配列を生成するデコーダ。
ProteinDTをトレーニングするために,441Kテキストとタンパク質ペアを備えた大規模なデータセットSwissProtCLAPを構築した。
1) テキスト誘導タンパク質生成における90%以上の精度, (2) ゼロショットテキスト誘導タンパク質編集タスクにおけるベストヒット率, 3) タンパク質特性予測ベンチマーク6点中4点の優れた性能,の3つの課題に対して,proteindtの有効性を定量的に検証した。
関連論文リスト
- Enhancing Protein Predictive Models via Proteins Data Augmentation: A
Benchmark and New Directions [58.819567030843025]
本稿では,これまで画像やテキストに用いたデータ拡張手法をタンパク質に拡張し,タンパク質関連タスクでこれらの手法をベンチマークする。
本稿では,2つの新規な意味レベルタンパク質増強法,すなわち,統合的グラディエント置換法とバック翻訳置換法を提案する。
最後に、拡張および提案された拡張を拡張プールに統合し、シンプルで効果的なフレームワークであるAutomated Protein Augmentation (APA)を提案する。
論文 参考訳(メタデータ) (2024-03-01T07:58:29Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Data-Efficient Protein 3D Geometric Pretraining via Refinement of
Diffused Protein Structure Decoy [42.49977473599661]
有意義なタンパク質表現の学習は、構造に基づく薬物設計のような様々な生物学的下流のタスクにとって重要である。
本稿では,タンパク質事前学習のための統一的なフレームワークと,幾何学的,データ効率,およびタンパク質特異的プリテキストタスクであるRefineDiffを提案する。
論文 参考訳(メタデータ) (2023-02-05T14:13:32Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Multi-modal Protein Knowledge Graph Construction and Applications [30.500520131560112]
タンパク質科学の知識グラフであるProteinKG65を作成します。
遺伝子オントロジーとUniprotナレッジベースを基盤として、アライメント記述やタンパク質配列を用いて様々な知識を変換する。
タンパク質KG65は主にタンパク質知識グラフを提供し、遺伝子オントロジーの知識をタンパク質の機能と構造予測にもたらす。
論文 参考訳(メタデータ) (2022-05-27T08:18:56Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - OntoProtein: Protein Pretraining With Gene Ontology Embedding [36.92674447484136]
GO(Gene Ontology)の構造をタンパク質事前学習モデルに活用する最初の汎用フレームワークであるOntoProteinを提案する。
我々はGOとその関連タンパク質からなる新しい大規模知識グラフを構築し、遺伝子アノテーションのテキストやタンパク質配列はグラフ内の全てのノードを記述する。
論文 参考訳(メタデータ) (2022-01-23T14:49:49Z) - BERTology Meets Biology: Interpreting Attention in Protein Language
Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。
注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。
また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文 参考訳(メタデータ) (2020-06-26T21:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。