論文の概要: Structure-Aligned Protein Language Model
- arxiv url: http://arxiv.org/abs/2505.16896v1
- Date: Thu, 22 May 2025 16:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.47084
- Title: Structure-Aligned Protein Language Model
- Title(参考訳): 構造対応タンパク質言語モデル
- Authors: Can Chen, David Heurtel-Depeiges, Robert M. Vernon, Christopher James Langmead, Yoshua Bengio, Quentin Fournier,
- Abstract要約: 膨大なタンパク質配列データベース上で事前訓練されたタンパク質言語モデル (pLM) は、下流の様々なタスクで優れているが、多くの生物学的応用に必要な構造的知識は欠如している。
我々は、事前学習されたタンパク質グラフニューラルネットワーク(pGNN)から、潜在レベルのコントラスト学習タスクを通じて、pLMに構造的洞察を統合する。
この課題は、pLMの残基を複数のタンパク質にまたがるpGNNの残基と整合させ、タンパク質間構造知識でpLMを豊かにする。
- 参考スコア(独自算出の注目度): 42.03167740260325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein language models (pLMs) pre-trained on vast protein sequence databases excel at various downstream tasks but lack the structural knowledge essential for many biological applications. To address this, we integrate structural insights from pre-trained protein graph neural networks (pGNNs) into pLMs through a latent-level contrastive learning task. This task aligns residue representations from pLMs with those from pGNNs across multiple proteins, enriching pLMs with inter-protein structural knowledge. Additionally, we incorporate a physical-level task that infuses intra-protein structural knowledge by optimizing pLMs to predict structural tokens. The proposed dual-task framework effectively incorporates both inter-protein and intra-protein structural knowledge into pLMs. Given the variability in the quality of protein structures in PDB, we further introduce a residue loss selection module, which uses a small model trained on high-quality structures to select reliable yet challenging residue losses for the pLM to learn. Applying our structure alignment method to the state-of-the-art ESM2 and AMPLIFY results in notable performance gains across a wide range of tasks, including a 12.7% increase in ESM2 contact prediction. The data, code, and resulting SaESM2 and SaAMPLIFY models will be released on Hugging Face.
- Abstract(参考訳): 膨大なタンパク質配列データベース上で事前訓練されたタンパク質言語モデル (pLM) は、下流の様々なタスクで優れているが、多くの生物学的応用に必要な構造的知識は欠如している。
そこで我々は,pGNN(pre-trained protein graph neural network)の構造的洞察を,潜在レベルのコントラスト学習タスクを通じてpLMに組み込む。
このタスクは、pLMの残基表現と、複数のタンパク質にわたるpGNNの残基表現を一致させ、タンパク質間構造知識でpLMを濃縮する。
さらに,pLMを最適化して構造トークンを予測することで,タンパク質内構造知識を注入する物理レベルタスクを組み込んだ。
提案したデュアルタスクフレームワークは、タンパク質間およびタンパク質内構造知識の両方をpLMに効果的に組み込む。
さらに,PDBにおけるタンパク質構造の品質の変動を考慮し,高品質な構造で訓練された小型モデルを用いて,PLMが学習する上で信頼性が高く困難な残留損失を選択する残余損失選択モジュールを導入する。
構造アライメント法を最先端のESM2およびAMPLIFYに適用すると、ESM2接触予測の12.7%の増加を含む、幅広いタスクで顕著なパフォーマンス向上が得られる。
データ、コード、結果のSaESM2とSaAMPLIFYモデルはHugging Faceでリリースされる。
関連論文リスト
- Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。
3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。
本フレームワークでは,PLMの生成するシーケンシャル表現とGNN抽出した構造特徴との効果的な相互作用を実現するために,注意とゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-04-07T06:47:49Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Structure-Enhanced Protein Instruction Tuning: Towards General-Purpose Protein Understanding [43.811432723460534]
本稿では,このギャップを埋めるために,構造強化タンパク質インストラクションチューニング(SEPIT)フレームワークを紹介する。
提案手法では, 構造的知識を付加するため, 構造的知識を付加し, これらの拡張された pLM を大規模言語モデル (LLM) に接続し, タンパク質の理解を創出する。
我々はこれまでで最大かつ最も包括的なタンパク質命令データセットを構築し、汎用タンパク質理解モデルの訓練と評価を可能にした。
論文 参考訳(メタデータ) (2024-10-04T16:02:50Z) - Evaluating representation learning on the protein structure universe [19.856785982914243]
ProteinWorkshopは、Graph Neural Networksでタンパク質構造の表現学習を行うためのベンチマークスイートである。
本研究は,実験と予測の両方における大規模事前学習および下流作業について考察する。
1)AlphaFold構造と補助タスクの大規模事前学習は、回転不変および同変GNNの性能を一貫して改善する。
論文 参考訳(メタデータ) (2024-06-19T21:48:34Z) - A Systematic Study of Joint Representation Learning on Protein Sequences
and Structures [38.94729758958265]
効果的なタンパク質表現の学習は、タンパク質機能の予測のような生物学の様々なタスクにおいて重要である。
近年, タンパク質言語モデル(PLM)に基づく配列表現学習法は, 配列ベースタスクでは優れているが, タンパク質構造に関わるタスクへの直接適応は依然として困難である。
本研究は、最先端のPLMと異なる構造エンコーダを統合することで、結合タンパク質表現学習の包括的研究を行う。
論文 参考訳(メタデータ) (2023-03-11T01:24:10Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。