論文の概要: PDeepPP:A Deep learning framework with Pretrained Protein language for peptide classification
- arxiv url: http://arxiv.org/abs/2502.15610v1
- Date: Fri, 21 Feb 2025 17:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:40.397274
- Title: PDeepPP:A Deep learning framework with Pretrained Protein language for peptide classification
- Title(参考訳): PDeepPP:ペプチド分類のためのプレトレーニングされたタンパク質言語を用いたディープラーニングフレームワーク
- Authors: Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Xueying Wang, Dan Huang,
- Abstract要約: ペプチド分類のためのトランスフォーマーとCNNを組み合わせたニューラルネットワークを用いて,事前学習されたタンパク質言語モデルを統合するディープラーニングフレームワークを提案する。
このフレームワークは、PTMサイトと生物活性ペプチド予測を含む複数のタスクに適用され、大規模データセットを使用してモデルの堅牢性を高めた。
- 参考スコア(独自算出の注目度): 6.55419985735241
- License:
- Abstract: Protein post-translational modifications (PTMs) and bioactive peptides (BPs) play critical roles in various biological processes and have significant therapeutic potential. However, identifying PTM sites and bioactive peptides through experimental methods is often labor-intensive, costly, and time-consuming. As a result, computational tools, particularly those based on deep learning, have become effective solutions for predicting PTM sites and peptide bioactivity. Despite progress in this field, existing methods still struggle with the complexity of protein sequences and the challenge of requiring high-quality predictions across diverse datasets. To address these issues, we propose a deep learning framework that integrates pretrained protein language models with a neural network combining transformer and CNN for peptide classification. By leveraging the ability of pretrained models to capture complex relationships within protein sequences, combined with the predictive power of parallel networks, our approach improves feature extraction while enhancing prediction accuracy. This framework was applied to multiple tasks involving PTM site and bioactive peptide prediction, utilizing large-scale datasets to enhance the model's robustness. In the comparison across 33 tasks, the model achieved state-of-the-art (SOTA) performance in 25 of them, surpassing existing methods and demonstrating its versatility across different datasets. Our results suggest that this approach provides a scalable and effective solution for large-scale peptide discovery and PTM analysis, paving the way for more efficient peptide classification and functional annotation.
- Abstract(参考訳): タンパク質翻訳後修飾(PTMs)と生物活性ペプチド(BPs)は、様々な生物学的プロセスにおいて重要な役割を担い、重要な治療効果を有する。
しかしながら、PTM部位と生物活性ペプチドを実験的手法で同定することは、しばしば労働集約的でコストがかかり、時間を要する。
その結果, 深層学習を基盤とした計算ツールが, PTM部位の予測やペプチド生物活性の予測に有効であることがわかった。
この分野での進歩にもかかわらず、既存の手法は、タンパク質配列の複雑さと、多様なデータセットにわたって高品質な予測を必要とするという課題に依然として苦戦している。
これらの課題に対処するため,ペプチド分類のためのトランスフォーマーとCNNを組み合わせたニューラルネットワークを用いて,事前学習されたタンパク質言語モデルを統合するディープラーニングフレームワークを提案する。
タンパク質配列内の複雑な関係を抽出する事前学習モデルの能力と並列ネットワークの予測能力を組み合わせることにより,予測精度を高めつつ特徴抽出を改善する。
このフレームワークは、PTMサイトと生物活性ペプチド予測を含む複数のタスクに適用され、大規模データセットを使用してモデルの堅牢性を高めた。
33のタスクの比較において、このモデルは25のタスクで最先端(SOTA)のパフォーマンスを達成し、既存のメソッドを超越し、異なるデータセットでその汎用性を実証した。
以上の結果から,本手法は大規模ペプチド発見とPTM解析のためのスケーラブルで効果的なソリューションであり,より効率的なペプチド分類と機能的アノテーションの道を開くことが示唆された。
関連論文リスト
- ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。
当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文 参考訳(メタデータ) (2024-12-28T04:23:47Z) - Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。
本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-11-22T20:13:55Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision [7.275932354889042]
異なる性質を持つタンパク質配列を生成するのに適したタンパク質言語モデルを導入する。
生成した配列をそれらの難易度スコアに基づいてランク付けし、タンパク質の許容凸殻の外にある配列をフィルタリングする。
溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
論文 参考訳(メタデータ) (2024-10-25T00:15:39Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。