論文の概要: PTransIPs: Identification of phosphorylation sites enhanced by protein
PLM embeddings
- arxiv url: http://arxiv.org/abs/2308.05115v3
- Date: Wed, 13 Mar 2024 05:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:21.959036
- Title: PTransIPs: Identification of phosphorylation sites enhanced by protein
PLM embeddings
- Title(参考訳): PTransIPs:タンパク質により増強されたリン酸化部位の同定
PLM埋め込み
- Authors: Ziyang Xu, Haitian Zhong, Bingrui He, Xueying Wang and Tianchi Lu
- Abstract要約: 我々は,リン酸化部位の同定のための新しいディープラーニングフレームワークであるPTransIPsを開発した。
PTransIPsは既存のSOTA法より優れており、AUCは0.9232と0.9660である。
- 参考スコア(独自算出の注目度): 2.971764950146918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phosphorylation is pivotal in numerous fundamental cellular processes and
plays a significant role in the onset and progression of various diseases. The
accurate identification of these phosphorylation sites is crucial for
unraveling the molecular mechanisms within cells and during viral infections,
potentially leading to the discovery of novel therapeutic targets. In this
study, we develop PTransIPs, a new deep learning framework for the
identification of phosphorylation sites. Independent testing results
demonstrate that PTransIPs outperforms existing state-of-the-art (SOTA)
methods, achieving AUCs of 0.9232 and 0.9660 for the identification of
phosphorylated S/T and Y sites, respectively. PTransIPs contributes from three
aspects. 1) PTransIPs is the first to apply protein pre-trained language model
(PLM) embeddings to this task. It utilizes ProtTrans and EMBER2 to extract
sequence and structure embeddings, respectively, as additional inputs into the
model, effectively addressing issues of dataset size and overfitting, thus
enhancing model performance; 2) PTransIPs is based on Transformer architecture,
optimized through the integration of convolutional neural networks and TIM loss
function, providing practical insights for model design and training; 3) The
encoding of amino acids in PTransIPs enables it to serve as a universal
framework for other peptide bioactivity tasks, with its excellent performance
shown in extended experiments of this paper. Our code, data and models are
publicly available at https://github.com/StatXzy7/PTransIPs.
- Abstract(参考訳): リン酸化は多くの基本的な細胞プロセスにおいて重要な役割を担い、様々な疾患の発症と進行に重要な役割を果たしている。
これらのリン酸化部位の正確な同定は、細胞内およびウイルス感染時の分子機構の解明に不可欠であり、新たな治療標的の発見につながる可能性がある。
本研究では,リン酸化部位の同定のための新しいディープラーニングフレームワークであるPTransIPsを開発する。
独立試験の結果、PTransIPsは既存のSOTA法よりも優れており、リン化S/T部位とY部位の同定にそれぞれ0.9232と0.9660のAUCを達成している。
PTransIPsは3つの側面から貢献する。
1) PTransIPsは, タンパク質事前学習言語モデル (PLM) を組み込んだ最初の試みである。
ProtTransとEMBER2を使用して、それぞれシーケンスと構造埋め込みを抽出し、モデルへの追加入力として、データセットサイズとオーバーフィットの問題に効果的に対処し、モデルパフォーマンスを向上させる。
2) PTransIPsは、畳み込みニューラルネットワークとTIM損失関数の統合により最適化されたTransformerアーキテクチャに基づいており、モデル設計とトレーニングの実践的な洞察を提供する。
3) PTransIPのアミノ酸のコード化により, 他のペプチド生物活性タスクの普遍的な枠組みとして機能し, 優れた性能を示す。
私たちのコード、データ、モデルはhttps://github.com/StatXzy7/PTransIPs.comで公開されています。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Learning to design protein-protein interactions with enhanced generalization [14.983309106361899]
PPIRefは3Dタンパク質-タンパク質相互作用の最大かつ非冗長なデータセットである。
PPIRefデータセットをプレトレーニングPPIformerに利用し,多種多様なタンパク質結合変異体を対象とするSE(3)-同変モデルを提案する。
我々はPPIフォーマを微調整し,タンパク質とタンパク質の相互作用に対する変異の影響を予測する。
論文 参考訳(メタデータ) (2023-10-27T22:22:44Z) - PIGNet2: A Versatile Deep Learning-based Protein-Ligand Interaction
Prediction Model for Binding Affinity Scoring and Virtual Screening [0.0]
タンパク質-リガンド相互作用の予測(PLI)は、薬物発見において重要な役割を果たす。
結合親和性を正確に評価し、効率的な仮想スクリーニングを行う汎用モデルの開発は依然として課題である。
本稿では、物理インフォームドグラフニューラルネットワークと組み合わせて、新しいデータ拡張戦略を導入することにより、実現可能なソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:46:49Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z) - A Brief Review of Machine Learning Techniques for Protein
Phosphorylation Sites Prediction [0.0]
可逆的翻訳後修飾 (Reversible Post-Translational Modifications, PTMs) は、タンパク質の機能的多様性を拡大する上で重要な役割を持つ。
PTMは、様々な細胞プロセスを制御するために利用される重要な分子制御機構として発生してきた。
この修飾の障害は、神経疾患やがんを含む複数の疾患によって引き起こされることがある。
論文 参考訳(メタデータ) (2021-08-10T22:23:30Z) - Confidence-guided Lesion Mask-based Simultaneous Synthesis of Anatomic
and Molecular MR Images in Patients with Post-treatment Malignant Gliomas [65.64363834322333]
信頼性ガイドSAMR(CG-SAMR)は、病変情報からマルチモーダル解剖学的配列にデータを合成する。
モジュールは中間結果に対する信頼度測定に基づいて合成をガイドする。
実際の臨床データを用いた実験により,提案モデルが最先端の合成法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-06T20:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。