Fugu-MT 論文翻訳(概要): Prompt-Guided Injection of Conformation to Pre-trained Protein Model

論文の概要: Prompt-Guided Injection of Conformation to Pre-trained Protein Model

arxiv url: http://arxiv.org/abs/2202.02944v1
Date: Mon, 7 Feb 2022 05:07:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-08 17:09:50.851551
Title: Prompt-Guided Injection of Conformation to Pre-trained Protein Model
Title（参考訳）: 事前学習したタンパク質モデルへの即効性コンフォメーション注入
Authors: Qiang Zhang, Zeyuan Wang, Yuqiang Han, Haoran Yu, Xurui Jin, Huajun Chen
Abstract要約: マルチタスク設定において,配列および相互作用変換プロンプトの両方を学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。その結果、シーケンスプロンプトの使用は、シーケンス関連タスクにおけるPTPMのパフォーマンスを損なうことはないという期待が得られた。また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることも示します。
参考スコア（独自算出の注目度）: 24.677471669731737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained protein models (PTPMs) represent a protein with one fixed embedding and thus are not capable for diverse tasks. For example, protein structures can shift, namely protein folding, between several conformations in various biological processes. To enable PTPMs to produce task-aware representations, we propose to learn interpretable, pluggable and extensible protein prompts as a way of injecting task-related knowledge into PTPMs. In this regard, prior PTPM optimization with the masked language modeling task can be interpreted as learning a sequence prompt (Seq prompt) that enables PTPMs to capture the sequential dependency between amino acids. To incorporate conformational knowledge to PTPMs, we propose an interaction-conformation prompt (IC prompt) that is learned through back-propagation with the protein-protein interaction task. As an instantiation, we present a conformation-aware pre-trained protein model that learns both sequence and interaction-conformation prompts in a multi-task setting. We conduct comprehensive experiments on nine protein datasets. Results confirm our expectation that using the sequence prompt does not hurt PTPMs' performance on sequence-related tasks while incorporating the interaction-conformation prompt significantly improves PTPMs' performance on tasks where conformational knowledge counts. We also show the learned prompts can be combined and extended to deal with new complex tasks.
Abstract（参考訳）: 事前訓練されたタンパク質モデル(PTPM)は1つの固定された埋め込みを持つタンパク質を表しており、多様なタスクをこなすことができない。例えば、タンパク質の構造は、様々な生物学的過程におけるいくつかのコンフォメーション、すなわちタンパク質の折りたたみによって変化する。 PTPMがタスク認識表現を作成できるように,PTPMにタスク関連知識を注入する方法として,解釈可能な,プラグブルで拡張可能なタンパク質プロンプトを学習することを提案する。この点において、マスキング言語モデリングタスクによる事前ptpm最適化は、アミノ酸間のシーケンシャルな依存性をptpmがキャプチャできるシーケンスプロンプト(seqプロンプト)の学習と解釈することができる。コンフォメーション知識をptpmsに組み込むために,タンパク質間相互作用タスクとバックプロパゲーションによって学習される相互作用コンフォーメーションプロンプト(icプロンプト)を提案する。インスタンス化として、マルチタスク環境でシーケンスと相互作用変換のプロンプトを学習するコンフォーメーション対応事前学習タンパク質モデルを提案する。 9つのタンパク質データセットに関する総合的な実験を行った。その結果,シーケンシャルプロンプトはシーケンシャルなタスクにおけるptpmsの性能を損なうことはないが,インタラクション・コンフォーメーション・プロンプトはコンフォーメーション的知識がカウントされるタスクにおけるptpmsの性能を大幅に向上させることが示唆された。また、学習したプロンプトを組み合わせることで、新しい複雑なタスクに対処できることを示す。

関連論文リスト

Ankh3: Multi-Task Pretraining with Sequence Denoising and Completion Enhances Protein Representations [0.3124884279860061]
タンパク質言語モデル(PLM)は、タンパク質配列の複雑なパターンを検出する強力なツールとして登場した。 PLMのマルチタスク事前学習戦略について検討した。このマルチタスク事前学習は、PLMがタンパク質配列のみからよりリッチでより一般化可能な表現を学習できることを実証した。
論文参考訳（メタデータ） (2025-05-26T14:41:10Z)
An All-Atom Generative Model for Designing Protein Complexes [49.09672038729524]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。原子レベルの情報を統合し、多鎖タンパク質のデータを活用することで、APMは鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
論文参考訳（メタデータ） (2025-04-17T16:37:41Z)
MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文参考訳（メタデータ） (2024-11-04T07:14:28Z)
Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文参考訳（メタデータ） (2024-10-29T16:43:28Z)
Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文参考訳（メタデータ） (2024-10-04T16:02:50Z)
Multi-Modal CLIP-Informed Protein Editing [8.927362207499181]
マルチモーダル学習による効率的なCLIPインフォームドタンパク質編集のためのProtETと呼ばれる新しい手法を提案する。我々のアプローチは2つの段階から構成される: 事前学習段階において、コントラスト学習は2つの大きな言語モデル(LLM)によって符号化されたタンパク質-バイオテキスト表現を整列する。タンパク質編集段階では、対象タンパク質配列を生成するための最終編集条件として、命令テキストと元のタンパク質配列の編集から融合した特徴がある。
論文参考訳（メタデータ） (2024-07-27T16:41:08Z)
ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。 ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文参考訳（メタデータ） (2024-05-21T08:06:13Z)
ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。 PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。 PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文参考訳（メタデータ） (2024-03-30T05:32:42Z)
ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。 ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文参考訳（メタデータ） (2024-02-28T01:29:55Z)
ProtFIM: Fill-in-Middle Protein Sequence Design via Protein Language Models [0.0]
現実世界のタンパク質工学では、タンパク質配列の中央にあるアミノ酸が他の残基を維持しながら最適化されることが多い。タンパク質言語モデル(pLM)はタンパク質配列設計のための有望なツールである。 ProtFIMとよばれる中間変換によって訓練された言語モデルは、タンパク質工学により適していることを示す。
論文参考訳（メタデータ） (2023-03-29T04:35:50Z)
ProtST: Multi-Modality Learning of Protein Sequences and Biomedical Texts [22.870765825298268]
タンパク質配列を拡大するProtSTデータセットを構築し,その機能や重要な特性をテキストで記述する。事前学習中に、単調マスク予測、マルチモーダル表現アライメント、マルチモーダルマスク予測という3種類のタスクを設計する。下流タスクでは、ProtSTは教師付き学習とゼロショット予測の両方を可能にする。
論文参考訳（メタデータ） (2023-01-28T00:58:48Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。