論文の概要: MMDesign: Multi-Modality Transfer Learning for Generative Protein Design
- arxiv url: http://arxiv.org/abs/2312.06297v1
- Date: Mon, 11 Dec 2023 10:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:53:09.218609
- Title: MMDesign: Multi-Modality Transfer Learning for Generative Protein Design
- Title(参考訳): MMDesign: 生成タンパク質設計のためのマルチモーダルトランスファー学習
- Authors: Jiangbin Zheng, Siyuan Li, Yufei Huang, Zhangyang Gao, Cheng Tan,
Bozhen Hu, Jun Xia, Ge Wang, Stan Z. Li
- Abstract要約: タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
- 参考スコア(独自算出の注目度): 66.49989188722553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein design involves generating protein sequences based on their
corresponding protein backbones. While deep generative models show promise for
learning protein design directly from data, the lack of publicly available
structure-sequence pairings limits their generalization capabilities. Previous
efforts of generative protein design have focused on architectural improvements
and pseudo-data augmentation to overcome this bottleneck. To further address
this challenge, we propose a novel protein design paradigm called MMDesign,
which leverages multi-modality transfer learning. To our knowledge, MMDesign is
the first framework that combines a pretrained structural module with a
pretrained contextual module, using an auto-encoder (AE) based language model
to incorporate prior semantic knowledge of protein sequences. We also introduce
a cross-layer cross-modal alignment algorithm to enable the structural module
to learn long-term temporal information and ensure consistency between
structural and contextual modalities. Experimental results, only training with
the small CATH dataset, demonstrate that our MMDesign framework consistently
outperforms other baselines on various public test sets. To further assess the
biological plausibility of the generated protein sequences and data
distribution, we present systematic quantitative analysis techniques that
provide interpretability and reveal more about the laws of protein design.
- Abstract(参考訳): タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束する一方で、公開可能な構造系列ペアリングの欠如は、その一般化能力を制限している。
ジェネレイティブタンパク質設計の以前の取り組みは、このボトルネックを克服するために、アーキテクチャの改善と擬似データ拡張に焦点を当ててきた。
この課題をさらに解決するために,マルチモーダルトランスファー学習を利用したMMDesignという新しいタンパク質設計パラダイムを提案する。
我々の知る限り、MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを結合する最初のフレームワークであり、オートエンコーダ(AE)ベースの言語モデルを用いて、タンパク質配列の事前の意味知識を組み込む。
また,構造モジュールが長期の時間的情報を学習し,構造的および文脈的モダリティの一貫性を確保するためのクロスレイヤークロスモーダルアライメントアルゴリズムを提案する。
実験の結果、小さなCATHデータセットでのみトレーニングした結果、我々のMMDesignフレームワークは、様々な公開テストセットで他のベースラインを一貫して上回ります。
生成したタンパク質配列とデータ分布の生物学的妥当性を更に評価するために, 解釈可能性を提供し, タンパク質設計の法則をさらに明らかにする系統的定量的解析手法を提案する。
関連論文リスト
- Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。
追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文 参考訳(メタデータ) (2023-05-07T12:30:24Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Integration of Pre-trained Protein Language Models into Geometric Deep
Learning Networks [68.90692290665648]
我々は、タンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する。
以上の結果から,ベースラインを20%上回る総合的な改善が見られた。
強い証拠は、タンパク質言語モデルの知識を取り入れることで、幾何学的ネットワークの能力が著しく向上することを示している。
論文 参考訳(メタデータ) (2022-12-07T04:04:04Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。