論文の概要: PTransIPs: Identification of phosphorylation sites based on protein
pretrained language model and Transformer
- arxiv url: http://arxiv.org/abs/2308.05115v2
- Date: Fri, 18 Aug 2023 06:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:17:26.849705
- Title: PTransIPs: Identification of phosphorylation sites based on protein
pretrained language model and Transformer
- Title(参考訳): PTransIPs:タンパク質事前学習言語モデルとトランスフォーマーに基づくリン酸化部位の同定
- Authors: Ziyang Xu and Haitian Zhong
- Abstract要約: 本稿では,リン酸化部位の同定のための新しい深層学習モデルであるPTransIPsを紹介する。
PTransIPは、タンパク質配列内のアミノ酸を単語として扱い、そのタイプとシーケンシャルな位置に基づいて独自のエンコーディングを抽出する。
独立テストの結果、PTransIPsは既存の最先端(SOTA)メソッドよりも優れていることが明らかになった。
- 参考スコア(独自算出の注目度): 0.266512000865131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phosphorylation is central to numerous fundamental cellular processes,
influencing the onset and progression of a variety of diseases. The correct
identification of these phosphorylation sites is of great importance to unravel
the intricate molecular mechanisms within cells and during viral infections,
potentially leading to the discovery of new therapeutic targets. In this study,
we introduce PTransIPs, a novel deep learning model for the identification of
phosphorylation sites. PTransIPs treat amino acids within protein sequences as
words, extracting unique encodings based on their type and sequential position.
The model also incorporates embeddings from large pretrained protein models as
additional data inputs. PTransIPS is further trained on a combination model of
convolutional neural network with residual connections and Transformer model
equipped with multi-head attention mechanisms. At last, the model outputs
classification results through a fully connected layer. The results of
independent testing reveal that PTransIPs outperforms existing
state-of-the-art(SOTA) methods, achieving AUROCs of 0.9232 and 0.9660 for
identifying phosphorylated S/T and Y sites respectively. In addition, ablation
studies prove that pretrained model embeddings contribute to the performance of
PTransIPs. Furthermore, PTransIPs has interpretable amino acid preference,
visible training process and shows generalizability on other bioactivity
classification tasks. To facilitate usage, our code and data are publicly
accessible at \url{https://github.com/StatXzy7/PTransIPs}.
- Abstract(参考訳): リン酸化は多くの基本的な細胞プロセスの中心であり、様々な疾患の発症と進行に影響を与える。
これらのリン酸化部位の正確な同定は、細胞内およびウイルス感染中の複雑な分子機構を解明することが非常に重要であり、新しい治療標的の発見につながる可能性がある。
本研究では,リン酸化部位の同定のための新しい深層学習モデルであるPTransIPを紹介する。
ptransipsはタンパク質配列内のアミノ酸を単語として扱い、そのタイプとシーケンシャルな位置に基づいてユニークなエンコーディングを抽出する。
このモデルには、大きな事前訓練されたタンパク質モデルの埋め込みも追加のデータ入力として組み込まれている。
ptransipsはさらに、残差接続を持つ畳み込みニューラルネットワークと、マルチヘッドアテンション機構を備えたトランスフォーマーモデルの組み合わせモデルに基づいて訓練される。
最後に、モデルは完全な連結層を通して分類結果を出力する。
独立試験の結果、PTransIPsは既存のSOTA法よりも優れており、リン化S/T部位とY部位をそれぞれ同定するためのAUROCは0.9232と0.9660であることがわかった。
さらに,プレトレーニングモデル埋め込みがPTransIPの性能に寄与することを示す。
さらに、PTransIPsは、解釈可能なアミノ酸嗜好、可視訓練プロセスを有し、他の生物活性分類タスクにおける一般化性を示す。
使用を容易にするため、コードとデータは \url{https://github.com/StatXzy7/PTransIPs} で公開されています。
関連論文リスト
- MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Learning to design protein-protein interactions with enhanced generalization [14.983309106361899]
PPIRefは3Dタンパク質-タンパク質相互作用の最大かつ非冗長なデータセットである。
PPIRefデータセットをプレトレーニングPPIformerに利用し,多種多様なタンパク質結合変異体を対象とするSE(3)-同変モデルを提案する。
我々はPPIフォーマを微調整し,タンパク質とタンパク質の相互作用に対する変異の影響を予測する。
論文 参考訳(メタデータ) (2023-10-27T22:22:44Z) - PIGNet2: A Versatile Deep Learning-based Protein-Ligand Interaction
Prediction Model for Binding Affinity Scoring and Virtual Screening [0.0]
タンパク質-リガンド相互作用の予測(PLI)は、薬物発見において重要な役割を果たす。
結合親和性を正確に評価し、効率的な仮想スクリーニングを行う汎用モデルの開発は依然として課題である。
本稿では、物理インフォームドグラフニューラルネットワークと組み合わせて、新しいデータ拡張戦略を導入することにより、実現可能なソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:46:49Z) - Multimodal Pre-Training Model for Sequence-based Prediction of
Protein-Protein Interaction [7.022012579173686]
タンパク質モデルによる効果的な表現の学習は、タンパク質とタンパク質の相互作用において重要である。
PPIの事前学習モデルのほとんどは配列ベースであり、自然言語処理で使用される言語モデルをアミノ酸配列に導入している。
本稿では, 配列, 構造, 機能という3つのモーダル性を持つマルチモーダルタンパク質事前学習モデルを提案する。
論文 参考訳(メタデータ) (2021-12-09T10:21:52Z) - A Brief Review of Machine Learning Techniques for Protein
Phosphorylation Sites Prediction [0.0]
可逆的翻訳後修飾 (Reversible Post-Translational Modifications, PTMs) は、タンパク質の機能的多様性を拡大する上で重要な役割を持つ。
PTMは、様々な細胞プロセスを制御するために利用される重要な分子制御機構として発生してきた。
この修飾の障害は、神経疾患やがんを含む複数の疾患によって引き起こされることがある。
論文 参考訳(メタデータ) (2021-08-10T22:23:30Z) - Confidence-guided Lesion Mask-based Simultaneous Synthesis of Anatomic
and Molecular MR Images in Patients with Post-treatment Malignant Gliomas [65.64363834322333]
信頼性ガイドSAMR(CG-SAMR)は、病変情報からマルチモーダル解剖学的配列にデータを合成する。
モジュールは中間結果に対する信頼度測定に基づいて合成をガイドする。
実際の臨床データを用いた実験により,提案モデルが最先端の合成法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-08-06T20:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。