論文の概要: LAMP-PRo: Label-aware Attention for Multi-label Prediction of DNA- and RNA-binding Proteins using Protein Language Models
- arxiv url: http://arxiv.org/abs/2509.24262v1
- Date: Mon, 29 Sep 2025 04:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.739694
- Title: LAMP-PRo: Label-aware Attention for Multi-label Prediction of DNA- and RNA-binding Proteins using Protein Language Models
- Title(参考訳): LAMP-PRo:タンパク質言語モデルを用いたDNAおよびRNA結合タンパク質の多ラベル予測のためのラベル認識
- Authors: Nimisha Ghosh, Dheeran Sankaran, Rahul Balakrishnan Adhi, Sharath S, Amrut Anand,
- Abstract要約: LAMP-PRoは、事前学習されたタンパク質言語モデル(PLM)、注意機構、マルチラベル学習に基づいている。
我々はDNA結合タンパク質とRNA結合タンパク質の依存関係を明示的に捉える新しいラベル間アテンション機構を含む。
- 参考スコア(独自算出の注目度): 0.5315873835064231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying DNA- (DBPs) and RNA-binding proteins (RBPs) is crucial for the understanding of cell function, molecular interactions as well as regulatory functions. Owing to their high similarity, most of the existing approaches face challenges in differentiating between DBPs and RBPs leading to high cross-prediction errors. Moreover, identifying proteins which bind to both DNA and RNA (DRBPs) is also quite a challenging task. In this regard, we propose a novel framework viz. LAMP-PRo which is based on pre-trained protein language model (PLM), attention mechanisms and multi-label learning to mitigate these issues. First, pre-trained PLM such ESM-2 is used for embedding the protein sequences followed by convolutional neural network (CNN). Subsequently multi-head self-attention mechanism is applied for the contextual information while label-aware attention is used to compute class-specific representations by attending to the sequence in a way that is tailored to each label (DBP, RBP and non-NABP) in a multi-label setup. We have also included a novel cross-label attention mechanism to explicitly capture dependencies between DNA- and RNA-binding proteins, enabling more accurate prediction of DRBP. Finally, a linear layer followed by a sigmoid function are used for the final prediction. Extensive experiments are carried out to compare LAMP-PRo with the existing methods wherein the proposed model shows consistent competent performance. Furthermore, we also provide visualization to showcase model interpretability, highlighting which parts of the sequence are most relevant for a predicted label. The original datasets are available at http://bliulab.net/iDRBP\_MMC and the codes are available at https://github.com/NimishaGhosh/LAMP-PRo.
- Abstract(参考訳): DNA-(DBP)とRNA結合タンパク質(RBP)の同定は、細胞機能、分子間相互作用、および調節機能を理解する上で重要である。
その高い類似性のため、既存のアプローチのほとんどは、DBPとRDPの差別化において高い予測誤差をもたらす課題に直面している。
さらに、DNAとRNAの両方に結合するタンパク質(DRBP)の同定も非常に難しい課題である。
そこで本研究では,新しいフレームワークvizを提案する。
LAMP-PRoは、事前学習されたタンパク質言語モデル(PLM)、注意機構、これらの問題を緩和するための多ラベル学習に基づいている。
まず、ESM-2のような事前訓練されたPLMを用いてタンパク質配列を埋め込み、その後畳み込みニューラルネットワーク(CNN)が続く。
その後、マルチラベル設定で各ラベル(DBP、RDP、非NABP)に合わせて調整された方法で、シーケンスに出席することで、クラス固有の表現をラベル対応で計算する際、コンテキスト情報にマルチヘッド自己認識機構を適用する。
また、DNA結合タンパク質とRNA結合タンパク質の依存関係を明示的に把握し、DRBPのより正確な予測を可能にする新しいクロスラベルアテンション機構も導入した。
最後に、最終予測には、線形層とシグモイド関数が続く。
LAMP-PRo と既存手法との比較実験を行い,本モデルでは一貫した性能を示す。
さらに、モデル解釈可能性を示す可視化も提供し、予測されたラベルにどの配列が最も関連があるかを強調します。
オリジナルのデータセットはhttp://bliulab.net/iDRBP\_MMCで、コードはhttps://github.com/NimishaGhosh/LAMP-PRoで入手できる。
関連論文リスト
- PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [80.08310253195144]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。
3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。
本稿では、よりリッチで包括的なタンパク質表現を捉えるために、双方向かつ階層的な(双階層的な)融合アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-07T06:47:49Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - OneProt: Towards Multi-Modal Protein Foundation Models [5.440531199006399]
我々は、構造、シーケンス、テキスト、結合サイトデータを統合したタンパク質のためのマルチモーダルAIであるOneProtを紹介する。
ImageBindフレームワークを使用して、OneProtは軽量な微調整方式でタンパク質モダリティエンコーダの潜在空間を整列する。
この研究はマルチモーダルタンパク質モデルの地平線を広げ、薬物発見、生物触媒反応計画、タンパク質工学における変革的応用の道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Pre-training Protein Language Models with Label-Agnostic Binding Pairs
Enhances Performance in Downstream Tasks [1.452875650827562]
タンパク質配列の1%未満は構造的にも機能的にも注釈付けされている。
本稿では,結合タンパク質配列と非結合タンパク質配列を混合したRoBERTaモデルを提案する。
トランスフォーマーの注意機構は,タンパク質結合部位の発見に寄与することが示唆された。
論文 参考訳(メタデータ) (2020-12-05T17:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。