論文の概要: CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction
- arxiv url: http://arxiv.org/abs/2409.03773v1
- Date: Wed, 21 Aug 2024 09:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 05:41:23.408011
- Title: CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction
- Title(参考訳): CoPRA:タンパク質-RNA結合親和性予測のための複雑な構造を持つクロスドメイン事前訓練配列モデル
- Authors: Rong Han, Xiaohong Liu, Tong Pan, Jing Xu, Xiaoyu Wang, Wuyang Lan, Zhenyu Li, Zixuan Wang, Jiangning Song, Guangyu Wang, Ting Chen,
- Abstract要約: 我々は,タンパク質-RNA結合親和性データセットPRA310を構築し,性能評価を行った。
我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
- 参考スコア(独自算出の注目度): 23.1499716310298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately measuring protein-RNA binding affinity is crucial in many biological processes and drug design. Previous computational methods for protein-RNA binding affinity prediction rely on either sequence or structure features, unable to capture the binding mechanisms comprehensively. The recent emerging pre-trained language models trained on massive unsupervised sequences of protein and RNA have shown strong representation ability for various in-domain downstream tasks, including binding site prediction. However, applying different-domain language models collaboratively for complex-level tasks remains unexplored. In this paper, we propose CoPRA to bridge pre-trained language models from different biological domains via Complex structure for Protein-RNA binding Affinity prediction. We demonstrate for the first time that cross-biological modal language models can collaborate to improve binding affinity prediction. We propose a Co-Former to combine the cross-modal sequence and structure information and a bi-scope pre-training strategy for improving Co-Former's interaction understanding. Meanwhile, we build the largest protein-RNA binding affinity dataset PRA310 for performance evaluation. We also test our model on a public dataset for mutation effect prediction. CoPRA reaches state-of-the-art performance on all the datasets. We provide extensive analyses and verify that CoPRA can (1) accurately predict the protein-RNA binding affinity; (2) understand the binding affinity change caused by mutations; and (3) benefit from scaling data and model size.
- Abstract(参考訳): 正確なタンパク質-RNA結合親和性の測定は多くの生物学的プロセスや薬物設計において重要である。
タンパク質-RNA結合親和性予測のこれまでの計算方法は、配列または構造の特徴に依存しており、結合機構を包括的に捉えることができない。
近年、タンパク質とRNAの大規模な教師なし配列に基づいて訓練された事前学習言語モデルは、結合部位の予測を含む様々なドメイン内の下流タスクに対して強力な表現能力を示している。
しかし、複雑なタスクに対して異なるドメイン言語モデルを協調的に適用することは、まだ未検討である。
本稿では,タンパク質-RNA結合親和性予測のための複雑構造を用いて,生物ドメインから事前学習した言語モデルをブリッジするCoPRAを提案する。
生物間モーダル言語モデルが結合親和性予測を改善するために協調できることを初めて実証する。
クロスモーダルシーケンスと構造情報を組み合わせたCo-Formerと、Co-Formerのインタラクション理解を改善するためのバイスコープ事前学習戦略を提案する。
一方,タンパク質-RNA結合親和性データセットPRA310を構築,性能評価を行った。
また、変異効果予測のために、我々のモデルを公開データセット上でテストする。
CoPRAはすべてのデータセットで最先端のパフォーマンスに達する。
我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。