論文の概要: Prompt-Guided Injection of Conformation to Pre-trained Protein Model
- arxiv url: http://arxiv.org/abs/2202.02944v1
- Date: Mon, 7 Feb 2022 05:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:09:50.851551
- Title: Prompt-Guided Injection of Conformation to Pre-trained Protein Model
- Title(参考訳): 事前学習したタンパク質モデルへの即効性コンフォメーション注入
- Authors: Qiang Zhang, Zeyuan Wang, Yuqiang Han, Haoran Yu, Xurui Jin, Huajun
Chen
- Abstract要約: マルチタスク設定において,配列および相互作用変換プロンプトの両方を学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。
その結果、シーケンスプロンプトの使用は、シーケンス関連タスクにおけるPTPMのパフォーマンスを損なうことはないという期待が得られた。
また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることも示します。
- 参考スコア(独自算出の注目度): 24.677471669731737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained protein models (PTPMs) represent a protein with one fixed
embedding and thus are not capable for diverse tasks. For example, protein
structures can shift, namely protein folding, between several conformations in
various biological processes. To enable PTPMs to produce task-aware
representations, we propose to learn interpretable, pluggable and extensible
protein prompts as a way of injecting task-related knowledge into PTPMs. In
this regard, prior PTPM optimization with the masked language modeling task can
be interpreted as learning a sequence prompt (Seq prompt) that enables PTPMs to
capture the sequential dependency between amino acids. To incorporate
conformational knowledge to PTPMs, we propose an interaction-conformation
prompt (IC prompt) that is learned through back-propagation with the
protein-protein interaction task. As an instantiation, we present a
conformation-aware pre-trained protein model that learns both sequence and
interaction-conformation prompts in a multi-task setting. We conduct
comprehensive experiments on nine protein datasets. Results confirm our
expectation that using the sequence prompt does not hurt PTPMs' performance on
sequence-related tasks while incorporating the interaction-conformation prompt
significantly improves PTPMs' performance on tasks where conformational
knowledge counts. We also show the learned prompts can be combined and extended
to deal with new complex tasks.
- Abstract(参考訳): 事前訓練されたタンパク質モデル(PTPM)は1つの固定された埋め込みを持つタンパク質を表しており、多様なタスクをこなすことができない。
例えば、タンパク質の構造は、様々な生物学的過程におけるいくつかのコンフォメーション、すなわちタンパク質の折りたたみによって変化する。
PTPMがタスク認識表現を作成できるように,PTPMにタスク関連知識を注入する方法として,解釈可能な,プラグブルで拡張可能なタンパク質プロンプトを学習することを提案する。
この点において、マスキング言語モデリングタスクによる事前ptpm最適化は、アミノ酸間のシーケンシャルな依存性をptpmがキャプチャできるシーケンスプロンプト(seqプロンプト)の学習と解釈することができる。
コンフォメーション知識をptpmsに組み込むために,タンパク質間相互作用タスクとバックプロパゲーションによって学習される相互作用コンフォーメーションプロンプト(icプロンプト)を提案する。
インスタンス化として、マルチタスク環境でシーケンスと相互作用変換のプロンプトを学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。
9つのタンパク質データセットに関する総合的な実験を行った。
その結果,シーケンシャルプロンプトはシーケンシャルなタスクにおけるptpmsの性能を損なうことはないが,インタラクション・コンフォーメーション・プロンプトはコンフォーメーション的知識がカウントされるタスクにおけるptpmsの性能を大幅に向上させることが示唆された。
また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることを示す。
関連論文リスト
- MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Protein-ligand binding representation learning from fine-grained
interactions [29.965890962846093]
本稿では,タンパク質-リガンド結合表現を自己教師付き学習方式で学習することを提案する。
この自己教師付き学習問題は、決定的結合複素構造の予測として定式化される。
様々なバインディングタスクに対して,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2023-11-09T01:33:09Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - DIPS-Plus: The Enhanced Database of Interacting Protein Structures for
Interface Prediction [2.697420611471228]
DIPS-Plusはタンパク質界面の幾何学的深層学習のための42,112複合体の強化された機能豊富なデータセットである。
DIPSの以前のバージョンは、与えられたタンパク質複合体を構成する原子のカルテシアン座標とタイプのみを含む。
DIPS-Plusには、プロテクション指標、半球アミノ酸組成、および各アミノ酸に対する新しいプロファイル隠れマルコフモデル(HMM)ベースの配列機能を含む、新しい残基レベルの特徴が多数含まれている。
論文 参考訳(メタデータ) (2021-06-06T23:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。