Fugu-MT 論文翻訳(概要): CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction

論文の概要: CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction

arxiv url: http://arxiv.org/abs/2409.03773v1
Date: Wed, 21 Aug 2024 09:48:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-15 05:41:23.408011
Title: CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction
Title（参考訳）: CoPRA:タンパク質-RNA結合親和性予測のための複雑な構造を持つクロスドメイン事前訓練配列モデル
Authors: Rong Han, Xiaohong Liu, Tong Pan, Jing Xu, Xiaoyu Wang, Wuyang Lan, Zhenyu Li, Zixuan Wang, Jiangning Song, Guangyu Wang, Ting Chen,
Abstract要約: 我々は,タンパク質-RNA結合親和性データセットPRA310を構築し,性能評価を行った。我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。
参考スコア（独自算出の注目度）: 23.1499716310298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurately measuring protein-RNA binding affinity is crucial in many biological processes and drug design. Previous computational methods for protein-RNA binding affinity prediction rely on either sequence or structure features, unable to capture the binding mechanisms comprehensively. The recent emerging pre-trained language models trained on massive unsupervised sequences of protein and RNA have shown strong representation ability for various in-domain downstream tasks, including binding site prediction. However, applying different-domain language models collaboratively for complex-level tasks remains unexplored. In this paper, we propose CoPRA to bridge pre-trained language models from different biological domains via Complex structure for Protein-RNA binding Affinity prediction. We demonstrate for the first time that cross-biological modal language models can collaborate to improve binding affinity prediction. We propose a Co-Former to combine the cross-modal sequence and structure information and a bi-scope pre-training strategy for improving Co-Former's interaction understanding. Meanwhile, we build the largest protein-RNA binding affinity dataset PRA310 for performance evaluation. We also test our model on a public dataset for mutation effect prediction. CoPRA reaches state-of-the-art performance on all the datasets. We provide extensive analyses and verify that CoPRA can (1) accurately predict the protein-RNA binding affinity; (2) understand the binding affinity change caused by mutations; and (3) benefit from scaling data and model size.
Abstract（参考訳）: 正確なタンパク質-RNA結合親和性の測定は多くの生物学的プロセスや薬物設計において重要である。タンパク質-RNA結合親和性予測のこれまでの計算方法は、配列または構造の特徴に依存しており、結合機構を包括的に捉えることができない。近年、タンパク質とRNAの大規模な教師なし配列に基づいて訓練された事前学習言語モデルは、結合部位の予測を含む様々なドメイン内の下流タスクに対して強力な表現能力を示している。しかし、複雑なタスクに対して異なるドメイン言語モデルを協調的に適用することは、まだ未検討である。本稿では,タンパク質-RNA結合親和性予測のための複雑構造を用いて,生物ドメインから事前学習した言語モデルをブリッジするCoPRAを提案する。生物間モーダル言語モデルが結合親和性予測を改善するために協調できることを初めて実証する。クロスモーダルシーケンスと構造情報を組み合わせたCo-Formerと、Co-Formerのインタラクション理解を改善するためのバイスコープ事前学習戦略を提案する。一方,タンパク質-RNA結合親和性データセットPRA310を構築,性能評価を行った。また、変異効果予測のために、我々のモデルを公開データセット上でテストする。 CoPRAはすべてのデータセットで最先端のパフォーマンスに達する。我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。

関連論文リスト

PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [80.08310253195144]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。 PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文参考訳（メタデータ） (2025-07-07T15:21:05Z)
Hierarchical Multi-Label Contrastive Learning for Protein-Protein Interaction Prediction Across Organisms [2.399426243085768]
タンパク質間相互作用予測のための階層的コントラストフレームワークであるHIPPOを提案する。提案手法は、タンパク質の機能クラス間の構造的関係をエミュレートする階層的コントラスト損失関数を含む。ベンチマークデータセットの実験では、HIPPOが最先端のパフォーマンスを達成し、既存のメソッドを上回り、低データのレシエーションにおいて堅牢性を示すことが示されている。
論文参考訳（メタデータ） (2025-07-03T15:41:04Z)
DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。 DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文参考訳（メタデータ） (2025-06-18T23:58:22Z)
KEPLA: A Knowledge-Enhanced Deep Learning Framework for Accurate Protein-Ligand Binding Affinity Prediction [60.23701115249195]
KEPLAは、遺伝子オントロジーとリガンド特性の事前知識を統合し、予測性能を向上させる新しいディープラーニングフレームワークである。 2つのベンチマークデータセットの実験では、KEPLAは一貫して最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-16T08:02:42Z)
Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。 3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。本フレームワークでは,PLMの生成するシーケンシャル表現とGNN抽出した構造特徴との効果的な相互作用を実現するために,注意とゲーティング機構を採用している。
論文参考訳（メタデータ） (2025-04-07T06:47:49Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。 eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文参考訳（メタデータ） (2024-05-03T10:33:19Z)
PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。 CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-13T03:51:10Z)
Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。 PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。 PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-01-26T12:47:54Z)
Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-02-03T10:49:52Z)
State-specific protein-ligand complex structure prediction with a multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文参考訳（メタデータ） (2022-09-30T01:46:38Z)
Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。 RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文参考訳（メタデータ） (2022-07-04T17:15:35Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。 EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文参考訳（メタデータ） (2021-05-11T03:40:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。