論文の概要: Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
- arxiv url: http://arxiv.org/abs/2505.20036v1
- Date: Mon, 26 May 2025 14:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.506652
- Title: Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction
- Title(参考訳): 単純な結合を超えて:多鎖タンパク質-タンパク質相互作用予測のためのPLMアーキテクチャを高く評価する
- Authors: Hazem Alsamkary, Mohamed Elshaffei, Mohamed Soudy, Sara Ossman, Abdallah Amr, Nehal Adel Abdelsalam, Mohamed Elkerdawy, Ahmed Elnaggar,
- Abstract要約: タンパク質とタンパク質の相互作用 (PPIs) は、多くの細胞プロセスの基礎である。
PLMはタンパク質の構造と機能を予測するのに顕著な成功を収めた。
シークエンスベースのPPI結合親和性予測への応用は、いまだに未検討である。
- 参考スコア(独自算出の注目度): 0.2509487459755192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protein-protein interactions (PPIs) are fundamental to numerous cellular processes, and their characterization is vital for understanding disease mechanisms and guiding drug discovery. While protein language models (PLMs) have demonstrated remarkable success in predicting protein structure and function, their application to sequence-based PPI binding affinity prediction remains relatively underexplored. This gap is often attributed to the scarcity of high-quality, rigorously refined datasets and the reliance on simple strategies for concatenating protein representations. In this work, we address these limitations. First, we introduce a meticulously curated version of the PPB-Affinity dataset of a total of 8,207 unique protein-protein interaction entries, by resolving annotation inconsistencies and duplicate entries for multi-chain protein interactions. This dataset incorporates a stringent, less than or equal to 30%, sequence identity threshold to ensure robust splitting into training, validation, and test sets, minimizing data leakage. Second, we propose and systematically evaluate four architectures for adapting PLMs to PPI binding affinity prediction: embeddings concatenation (EC), sequences concatenation (SC), hierarchical pooling (HP), and pooled attention addition (PAD). These architectures were assessed using two training methods: full fine-tuning and a lightweight approach employing ConvBERT heads over frozen PLM features. Our comprehensive experiments across multiple leading PLMs (ProtT5, ESM2, Ankh, Ankh2, and ESM3) demonstrated that the HP and PAD architectures consistently outperform conventional concatenation methods, achieving up to 12% increase in terms of Spearman correlation. These results highlight the necessity of sophisticated architectural designs to fully exploit the capabilities of PLMs for nuanced PPI binding affinity prediction.
- Abstract(参考訳): タンパク質とタンパク質の相互作用(PPI)は多くの細胞プロセスの基礎であり、その特性は疾患のメカニズムを理解し、薬物発見を導くのに不可欠である。
タンパク質言語モデル(PLMs)は、タンパク質の構造と機能を予測するのに顕著な成功をおさめているが、その配列ベースのPPI結合親和性予測への応用は、いまだに未発見である。
このギャップは、しばしば、高品質で厳格に洗練されたデータセットの不足と、タンパク質表現を連結するための単純な戦略に依存しているためである。
この作業では、これらの制限に対処する。
まず, アノテーションの不整合を解消し, 多鎖タンパク質相互作用のための重複エントリを解決し, 8,207個のタンパク質-タンパク質相互作用エントリからなるPB-Affinityデータセットの精巧にキュレートしたバージョンを紹介した。
このデータセットには、トレーニング、バリデーション、テストセットに堅牢な分割を保証するために、30%未満の厳密なシーケンスアイデンティティしきい値が組み込まれており、データのリークを最小限に抑えている。
次に,PLMをPPI結合親和性予測に適用するためのアーキテクチャとして,埋め込み結合結合(EC),シーケンス結合(SC),階層プール(HP),プールアテンション付加(PAD)の4つを提案する。
これらのアーキテクチャは、完全な微調整と、凍ったPLM機能に対するConvBERTヘッドを用いた軽量なアプローチの2つのトレーニング手法を用いて評価された。
複数のPLM (ProtT5, ESM2, Ankh, Ankh2, ESM3) を包括的に比較した結果, HP と PAD のアーキテクチャは従来手法より一貫して優れており,スピアマン相関では最大12%向上した。
これらの結果は、PPI結合親和性予測のためのPLMの機能を完全に活用するための高度なアーキテクチャ設計の必要性を浮き彫りにする。
関連論文リスト
- Structure-Aligned Protein Language Model [42.03167740260325]
膨大なタンパク質配列データベース上で事前訓練されたタンパク質言語モデル (pLM) は、下流の様々なタスクで優れているが、多くの生物学的応用に必要な構造的知識は欠如している。
我々は、事前学習されたタンパク質グラフニューラルネットワーク(pGNN)から、潜在レベルのコントラスト学習タスクを通じて、pLMに構造的洞察を統合する。
この課題は、pLMの残基を複数のタンパク質にまたがるpGNNの残基と整合させ、タンパク質間構造知識でpLMを豊かにする。
論文 参考訳(メタデータ) (2025-05-22T16:56:12Z) - Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。
3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。
本フレームワークでは,PLMの生成するシーケンシャル表現とGNN抽出した構造特徴との効果的な相互作用を実現するために,注意とゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-04-07T06:47:49Z) - Joint Masked Reconstruction and Contrastive Learning for Mining Interactions Between Proteins [4.254824555546419]
タンパク質とタンパク質の相互作用 (PPI) の予測は、細胞操作の基礎となるメカニズムを解明するための手段である。
本稿では,JmcPPIと呼ばれるマスク型再構成とコントラスト学習を組み合わせた新しいPPI予測手法を提案する。
3つの広く利用されているPPIデータセットに対して行われた大規模な実験は、JmcPPIが既存の最適なベースラインモデルを上回ることを示した。
論文 参考訳(メタデータ) (2025-03-06T17:39:12Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - MAPE-PPI: Towards Effective and Efficient Protein-Protein Interaction
Prediction via Microenvironment-Aware Protein Embedding [82.31506767274841]
タンパク質-プロテイン相互作用(PPI)は、様々な生物学的過程において基本的であり、生命活動において重要な役割を果たしている。
MPAE-PPIは、十分に大きな「語彙」を介して、マイクロ環境を化学的に意味のある離散コードに符号化する
MPAE-PPIは、数百万のPPIでPPI予測にスケールでき、有効性と計算効率のトレードオフが優れている。
論文 参考訳(メタデータ) (2024-02-22T09:04:41Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - A Supervised Machine Learning Approach for Sequence Based
Protein-protein Interaction (PPI) Prediction [4.916874464940376]
計算タンパク質間相互作用(PPI)予測技術は、時間、コスト、偽陽性相互作用の低減に大きく貢献する。
提案したソリューションをSeqPIPコンペティションの結果とともに紹介した。
論文 参考訳(メタデータ) (2022-03-23T18:27:25Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。