論文の概要: ProtCLIP: Function-Informed Protein Multi-Modal Learning
- arxiv url: http://arxiv.org/abs/2412.20014v1
- Date: Sat, 28 Dec 2024 04:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:00.692173
- Title: ProtCLIP: Function-Informed Protein Multi-Modal Learning
- Title(参考訳): ProtCLIP: 機能インフォームドたんぱく質多モード学習
- Authors: Hanjing Zhou, Mingze Yin, Wei Wu, Mingyang Li, Kun Fu, Jintai Chen, Jian Wu, Zheng Wang,
- Abstract要約: ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。
当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
- 参考スコア(独自算出の注目度): 18.61302416993122
- License:
- Abstract: Multi-modality pre-training paradigm that aligns protein sequences and biological descriptions has learned general protein representations and achieved promising performance in various downstream applications. However, these works were still unable to replicate the extraordinary success of language-supervised visual foundation models due to the ineffective usage of aligned protein-text paired data and the lack of an effective function-informed pre-training paradigm. To address these issues, this paper curates a large-scale protein-text paired dataset called ProtAnno with a property-driven sampling strategy, and introduces a novel function-informed protein pre-training paradigm. Specifically, the sampling strategy determines selecting probability based on the sample confidence and property coverage, balancing the data quality and data quantity in face of large-scale noisy data. Furthermore, motivated by significance of the protein specific functional mechanism, the proposed paradigm explicitly model protein static and dynamic functional segments by two segment-wise pre-training objectives, injecting fine-grained information in a function-informed manner. Leveraging all these innovations, we develop ProtCLIP, a multi-modality foundation model that comprehensively represents function-aware protein embeddings. On 22 different protein benchmarks within 5 types, including protein functionality classification, mutation effect prediction, cross-modal transformation, semantic similarity inference and protein-protein interaction prediction, our ProtCLIP consistently achieves SOTA performance, with remarkable improvements of 75% on average in five cross-modal transformation benchmarks, 59.9% in GO-CC and 39.7% in GO-BP protein function prediction. The experimental results verify the extraordinary potential of ProtCLIP serving as the protein multi-modality foundation model.
- Abstract(参考訳): タンパク質配列と生物学的記述を整合させるマルチモダリティ事前学習パラダイムは、一般的なタンパク質表現を学習し、様々な下流アプリケーションで有望な性能を達成した。
しかし、これらの研究は、協調したタンパク質とテキストのペアリングデータの非効率な使用と、効果的な機能インフォームド事前学習パラダイムの欠如により、言語による視覚基盤モデルの異常な成功を再現することができなかった。
これらの課題に対処するため,ProtAnnoと呼ばれる大規模タンパク質文ペアデータセットをプロパティ駆動型サンプリング戦略でキュレートし,機能インフォームドタンパク質事前学習パラダイムを導入する。
具体的には、サンプル信頼度と特性カバレッジに基づいて、大規模ノイズデータに対して、データ品質とデータ量とをバランスさせて、選択確率を決定する。
さらに,タンパク質特異的機能機構の重要性を動機として,タンパク質の静的および動的機能セグメントを2つのセグメントワイド事前学習目標によって明示的にモデル化し,機能インフォームド方式で微細な情報を注入する手法を提案する。
これらすべての革新を活用して,機能認識タンパク質の埋め込みを包括的に表現する多モード基盤モデルであるProtCLIPを開発した。
タンパク質機能分類、突然変異効果予測、クロスモーダル変換、セマンティック類似性推論、タンパク質-タンパク質相互作用予測を含む5種類のタンパク質ベンチマークにおいて、ProtCLIPは、平均で75%、GO-CCで59.9%、GO-BPタンパク質機能予測で39.7%の改善とともに、SOTA性能を継続的に達成している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。
また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - Protein-Mamba: Biological Mamba Models for Protein Function Prediction [18.642511763423048]
タンパク質-マンバは、タンパク質機能予測を改善するために、自己教師付き学習と微調整の両方を活用する新しい2段階モデルである。
実験の結果,Protein-Mambaはいくつかの最先端手法と比較して,競争力を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-22T22:51:56Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。
エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文 参考訳(メタデータ) (2023-07-25T09:35:43Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling [0.0]
GoogleのTPU-v4でトレーニングされた最初の汎用タンパク言語モデルであるAnkhを紹介します。
アンクは、タンパク質の進化保存変異の傾向を学習し、重要な構造-機能的特性を維持しながら機能的多様性を導入することに成功している。
論文 参考訳(メタデータ) (2023-01-16T19:04:45Z) - Multi-Scale Representation Learning on Proteins [78.31410227443102]
本稿では,タンパク質HoloProtのマルチスケールグラフ構築について紹介する。
表面はタンパク質の粗い詳細を捉え、配列は一次成分であり、構造はより微細な詳細を捉えている。
グラフエンコーダは、各レベルが下のレベル(s)からそのレベルでのグラフとエンコーディングを統合することで、マルチスケール表現を学習する。
論文 参考訳(メタデータ) (2022-04-04T08:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。