論文の概要: PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction
- arxiv url: http://arxiv.org/abs/2402.08198v1
- Date: Tue, 13 Feb 2024 03:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:44:08.312312
- Title: PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction
- Title(参考訳): psc-cpi : 効率良く汎用的な複合タンパク質相互作用予測のためのマルチスケールタンパク質配列構造コントラスト
- Authors: Lirong Wu, Yufei Huang, Cheng Tan, Zhangyang Gao, Bozhen Hu, Haitao
Lin, Zicheng Liu, Stan Z. Li
- Abstract要約: 化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.50967073653953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compound-Protein Interaction (CPI) prediction aims to predict the pattern and
strength of compound-protein interactions for rational drug discovery. Existing
deep learning-based methods utilize only the single modality of protein
sequences or structures and lack the co-modeling of the joint distribution of
the two modalities, which may lead to significant performance drops in complex
real-world scenarios due to various factors, e.g., modality missing and domain
shifting. More importantly, these methods only model protein sequences and
structures at a single fixed scale, neglecting more fine-grained multi-scale
information, such as those embedded in key protein fragments. In this paper, we
propose a novel multi-scale Protein Sequence-structure Contrasting framework
for CPI prediction (PSC-CPI), which captures the dependencies between protein
sequences and structures through both intra-modality and cross-modality
contrasting. We further apply length-variable protein augmentation to allow
contrasting to be performed at different scales, from the amino acid level to
the sequence level. Finally, in order to more fairly evaluate the model
generalizability, we split the test data into four settings based on whether
compounds and proteins have been observed during the training stage. Extensive
experiments have shown that PSC-CPI generalizes well in all four settings,
particularly in the more challenging ``Unseen-Both" setting, where neither
compounds nor proteins have been observed during training. Furthermore, even
when encountering a situation of modality missing, i.e., inference with only
single-modality protein data, PSC-CPI still exhibits comparable or even better
performance than previous approaches.
- Abstract(参考訳): 化合物-プロテイン相互作用(CPI)予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造の単一モダリティのみを使用し、2つのモダリティの結合分布のコモデリングが欠如しており、モダリティの欠如やドメインシフトといったさまざまな要因により、複雑な現実世界のシナリオにおいて大幅なパフォーマンス低下を引き起こす可能性がある。
さらに重要なことは、これらの手法は単一の固定スケールでタンパク質配列と構造をモデル化するだけで、キータンパク質断片に埋め込まれたようなよりきめ細かいマルチスケール情報を無視する。
本稿では、タンパク質配列と構造間の依存性を、モダリティ内およびクロスモダリティコントラストを通じて捉える、cpi予測(psc-cpi)のための、新しい多スケールタンパク質配列構造コントラストフレームワークを提案する。
さらに、アミノ酸レベルから配列レベルまで、異なるスケールでコントラストを行うことができるように、長さ可変タンパク質の増強を適用する。
最後に, モデル一般化可能性をより公平に評価するために, トレーニング段階で化合物やタンパク質が観察されたかどうかに基づいて, テストデータを4つの設定に分割した。
広範な実験により、psc-cpiは4つの設定すべてにおいて、特に訓練中に化合物やタンパク質が観測されていない、より難しい「アンセエン・バイザー」設定においてよく一般化することが示されている。
さらに、モダリティの欠如、すなわち単一のモダリティタンパク質データのみによる推論に遭遇しても、psc-cpiは以前のアプローチと同等あるいはそれ以上のパフォーマンスを示す。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction [23.1499716310298]
我々は,タンパク質-RNA結合親和性データセットPRA310を構築し,性能評価を行った。
我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
論文 参考訳(メタデータ) (2024-08-21T09:48:22Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Cross-Modality Protein Embedding for Compound-Protein Affinity and
Contact Prediction [15.955668586941472]
タンパク質を1Dアミノ酸配列と(シーケンス予測)2D残基ペア接触マップを含むマルチモーダルデータとみなす。
CPAC予測の精度と一般化性において,2つの単一モードの埋め込みを実証的に評価した。
論文 参考訳(メタデータ) (2020-11-14T04:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。