論文の概要: PDeepPP:A Deep learning framework with Pretrained Protein language for peptide classification
- arxiv url: http://arxiv.org/abs/2502.15610v1
- Date: Fri, 21 Feb 2025 17:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 23:44:09.987022
- Title: PDeepPP:A Deep learning framework with Pretrained Protein language for peptide classification
- Title(参考訳): PDeepPP:ペプチド分類のためのプレトレーニングされたタンパク質言語を用いたディープラーニングフレームワーク
- Authors: Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Xueying Wang, Dan Huang,
- Abstract要約: ペプチド分類のためのトランスフォーマーとCNNを組み合わせたニューラルネットワークを用いて,事前学習されたタンパク質言語モデルを統合するディープラーニングフレームワークを提案する。
このフレームワークは、PTMサイトと生物活性ペプチド予測を含む複数のタスクに適用され、大規模データセットを使用してモデルの堅牢性を高めた。
- 参考スコア(独自算出の注目度): 6.55419985735241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein post-translational modifications (PTMs) and bioactive peptides (BPs) play critical roles in various biological processes and have significant therapeutic potential. However, identifying PTM sites and bioactive peptides through experimental methods is often labor-intensive, costly, and time-consuming. As a result, computational tools, particularly those based on deep learning, have become effective solutions for predicting PTM sites and peptide bioactivity. Despite progress in this field, existing methods still struggle with the complexity of protein sequences and the challenge of requiring high-quality predictions across diverse datasets. To address these issues, we propose a deep learning framework that integrates pretrained protein language models with a neural network combining transformer and CNN for peptide classification. By leveraging the ability of pretrained models to capture complex relationships within protein sequences, combined with the predictive power of parallel networks, our approach improves feature extraction while enhancing prediction accuracy. This framework was applied to multiple tasks involving PTM site and bioactive peptide prediction, utilizing large-scale datasets to enhance the model's robustness. In the comparison across 33 tasks, the model achieved state-of-the-art (SOTA) performance in 25 of them, surpassing existing methods and demonstrating its versatility across different datasets. Our results suggest that this approach provides a scalable and effective solution for large-scale peptide discovery and PTM analysis, paving the way for more efficient peptide classification and functional annotation.
- Abstract(参考訳): タンパク質翻訳後修飾(PTMs)と生物活性ペプチド(BPs)は、様々な生物学的プロセスにおいて重要な役割を担い、重要な治療効果を有する。
しかしながら、PTM部位と生物活性ペプチドを実験的手法で同定することは、しばしば労働集約的でコストがかかり、時間を要する。
その結果, 深層学習を基盤とした計算ツールが, PTM部位の予測やペプチド生物活性の予測に有効であることがわかった。
この分野での進歩にもかかわらず、既存の手法は、タンパク質配列の複雑さと、多様なデータセットにわたって高品質な予測を必要とするという課題に依然として苦戦している。
これらの課題に対処するため,ペプチド分類のためのトランスフォーマーとCNNを組み合わせたニューラルネットワークを用いて,事前学習されたタンパク質言語モデルを統合するディープラーニングフレームワークを提案する。
タンパク質配列内の複雑な関係を抽出する事前学習モデルの能力と並列ネットワークの予測能力を組み合わせることにより,予測精度を高めつつ特徴抽出を改善する。
このフレームワークは、PTMサイトと生物活性ペプチド予測を含む複数のタスクに適用され、大規模データセットを使用してモデルの堅牢性を高めた。
33のタスクの比較において、このモデルは25のタスクで最先端(SOTA)のパフォーマンスを達成し、既存のメソッドを超越し、異なるデータセットでその汎用性を実証した。
以上の結果から,本手法は大規模ペプチド発見とPTM解析のためのスケーラブルで効果的なソリューションであり,より効率的なペプチド分類と機能的アノテーションの道を開くことが示唆された。
関連論文リスト
- ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。
当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文 参考訳(メタデータ) (2024-12-28T04:23:47Z) - Multi-modal Representation Learning Enables Accurate Protein Function Prediction in Low-Data Setting [0.0]
HOPER(Holistic ProtEin Representation)は、低データ設定でタンパク質機能予測(PFP)を強化するために設計された新しいフレームワークである。
本研究は,生物研究におけるデータ制限を克服するためのマルチモーダル表現学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-11-22T20:13:55Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision [7.275932354889042]
異なる性質を持つタンパク質配列を生成するのに適したタンパク質言語モデルを導入する。
生成した配列をそれらの難易度スコアに基づいてランク付けし、タンパク質の許容凸殻の外にある配列をフィルタリングする。
溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
論文 参考訳(メタデータ) (2024-10-25T00:15:39Z) - Multi-Peptide: Multimodality Leveraged Language-Graph Learning of Peptide Properties [5.812284760539713]
Multi-Peptideは、トランスフォーマーベースの言語モデルとグラフニューラルネットワーク(GNN)を組み合わせてペプチドの性質を予測する革新的なアプローチである。
溶血性データセットおよび非汚泥性データセットの評価は、多ペプチドの堅牢性を示し、溶血性予測における最先端86.185%の精度を達成する。
本研究は, 生体情報学におけるマルチモーダル学習の可能性を強調し, ペプチドを用いた研究・応用における正確かつ信頼性の高い予測方法を模索する。
論文 参考訳(メタデータ) (2024-07-02T20:13:47Z) - ContactNet: Geometric-Based Deep Learning Model for Predicting Protein-Protein Interactions [2.874893537471256]
我々は,PPIモデルを正確かつ誤ったものに分類するための新しい注目型グラフニューラルネットワーク(GNN)であるContactNetを開発した。
ドッキング抗原やモデル抗体構造を訓練すると、ContactNetは現在の最先端のスコアリング機能の精度を2倍にする。
論文 参考訳(メタデータ) (2024-06-26T12:54:41Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - PPFlow: Target-aware Peptide Design with Torsional Flow Matching [52.567714059931646]
ペプチド構造設計のためのねじれ角の内部構造をモデル化するために,textscPPFlowと呼ばれるターゲット認識型ペプチド設計手法を提案する。
さらに, PPBench2024というタンパク質-ペプチド結合データセットを構築した。
論文 参考訳(メタデータ) (2024-03-05T13:26:42Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - PTransIPs: Identification of phosphorylation sites enhanced by protein
PLM embeddings [2.971764950146918]
我々は,リン酸化部位の同定のための新しいディープラーニングフレームワークであるPTransIPsを開発した。
PTransIPsは既存のSOTA法より優れており、AUCは0.9232と0.9660である。
論文 参考訳(メタデータ) (2023-08-08T07:50:38Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z) - From Static to Dynamic Structures: Improving Binding Affinity Prediction with Graph-Based Deep Learning [40.83037811977803]
Dynaformerは、タンパク質-リガンド結合親和性を予測するために開発されたグラフベースのディープラーニングモデルである。
CASF-2016ベンチマークデータセットでは、最先端のスコアとランキングの能力を示している。
熱ショックタンパク質90(HSP90)の仮想スクリーニングにおいて、20の候補を同定し、それらの結合親和性を実験的に検証する。
論文 参考訳(メタデータ) (2022-08-19T14:55:12Z) - Improved Drug-target Interaction Prediction with Intermolecular Graph
Transformer [98.8319016075089]
本稿では,3方向トランスフォーマーアーキテクチャを用いて分子間情報をモデル化する手法を提案する。
分子間グラフ変換器(IGT)は、それぞれ、結合活性と結合ポーズ予測の2番目のベストに対して、最先端のアプローチを9.1%と20.5%で上回っている。
IGTはSARS-CoV-2に対して有望な薬物スクリーニング能力を示す。
論文 参考訳(メタデータ) (2021-10-14T13:28:02Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。