論文の概要: Prompt-Guided Injection of Conformation to Pre-trained Protein Model
- arxiv url: http://arxiv.org/abs/2202.02944v1
- Date: Mon, 7 Feb 2022 05:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:09:50.851551
- Title: Prompt-Guided Injection of Conformation to Pre-trained Protein Model
- Title(参考訳): 事前学習したタンパク質モデルへの即効性コンフォメーション注入
- Authors: Qiang Zhang, Zeyuan Wang, Yuqiang Han, Haoran Yu, Xurui Jin, Huajun
Chen
- Abstract要約: マルチタスク設定において,配列および相互作用変換プロンプトの両方を学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。
その結果、シーケンスプロンプトの使用は、シーケンス関連タスクにおけるPTPMのパフォーマンスを損なうことはないという期待が得られた。
また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることも示します。
- 参考スコア(独自算出の注目度): 24.677471669731737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained protein models (PTPMs) represent a protein with one fixed
embedding and thus are not capable for diverse tasks. For example, protein
structures can shift, namely protein folding, between several conformations in
various biological processes. To enable PTPMs to produce task-aware
representations, we propose to learn interpretable, pluggable and extensible
protein prompts as a way of injecting task-related knowledge into PTPMs. In
this regard, prior PTPM optimization with the masked language modeling task can
be interpreted as learning a sequence prompt (Seq prompt) that enables PTPMs to
capture the sequential dependency between amino acids. To incorporate
conformational knowledge to PTPMs, we propose an interaction-conformation
prompt (IC prompt) that is learned through back-propagation with the
protein-protein interaction task. As an instantiation, we present a
conformation-aware pre-trained protein model that learns both sequence and
interaction-conformation prompts in a multi-task setting. We conduct
comprehensive experiments on nine protein datasets. Results confirm our
expectation that using the sequence prompt does not hurt PTPMs' performance on
sequence-related tasks while incorporating the interaction-conformation prompt
significantly improves PTPMs' performance on tasks where conformational
knowledge counts. We also show the learned prompts can be combined and extended
to deal with new complex tasks.
- Abstract(参考訳): 事前訓練されたタンパク質モデル(PTPM)は1つの固定された埋め込みを持つタンパク質を表しており、多様なタスクをこなすことができない。
例えば、タンパク質の構造は、様々な生物学的過程におけるいくつかのコンフォメーション、すなわちタンパク質の折りたたみによって変化する。
PTPMがタスク認識表現を作成できるように,PTPMにタスク関連知識を注入する方法として,解釈可能な,プラグブルで拡張可能なタンパク質プロンプトを学習することを提案する。
この点において、マスキング言語モデリングタスクによる事前ptpm最適化は、アミノ酸間のシーケンシャルな依存性をptpmがキャプチャできるシーケンスプロンプト(seqプロンプト)の学習と解釈することができる。
コンフォメーション知識をptpmsに組み込むために,タンパク質間相互作用タスクとバックプロパゲーションによって学習される相互作用コンフォーメーションプロンプト(icプロンプト)を提案する。
インスタンス化として、マルチタスク環境でシーケンスと相互作用変換のプロンプトを学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。
9つのタンパク質データセットに関する総合的な実験を行った。
その結果,シーケンシャルプロンプトはシーケンシャルなタスクにおけるptpmsの性能を損なうことはないが,インタラクション・コンフォーメーション・プロンプトはコンフォーメーション的知識がカウントされるタスクにおけるptpmsの性能を大幅に向上させることが示唆された。
また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることを示す。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - Multi-Modal CLIP-Informed Protein Editing [8.927362207499181]
マルチモーダル学習による効率的なCLIPインフォームドタンパク質編集のためのProtETと呼ばれる新しい手法を提案する。
我々のアプローチは2つの段階から構成される: 事前学習段階において、コントラスト学習は2つの大きな言語モデル(LLM)によって符号化されたタンパク質-バイオテキスト表現を整列する。
タンパク質編集段階では、対象タンパク質配列を生成するための最終編集条件として、命令テキストと元のタンパク質配列の編集から融合した特徴がある。
論文 参考訳(メタデータ) (2024-07-27T16:41:08Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language
Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。
タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。
ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文 参考訳(メタデータ) (2023-03-29T04:35:50Z) - ProtST: Multi-Modality Learning of Protein Sequences and Biomedical
Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。
事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。
下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文 参考訳(メタデータ) (2023-01-28T00:58:48Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。