論文の概要: Pep2Prob Benchmark: Predicting Fragment Ion Probability for MS$^2$-based Proteomics
- arxiv url: http://arxiv.org/abs/2508.21076v1
- Date: Tue, 12 Aug 2025 20:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.228202
- Title: Pep2Prob Benchmark: Predicting Fragment Ion Probability for MS$^2$-based Proteomics
- Title(参考訳): Pep2Probベンチマーク: MS$^2$ベースのプロテオミクスのフラグメントイオン確率予測
- Authors: Hao Xu, Zhichao Wang, Shengqi Sang, Pisit Wajanasara, Nuno Bandeira,
- Abstract要約: Pep2Probはペプチド特異的なイオン確率予測のために設計された最初の包括的なデータセットとベンチマークである。
データセットには608,780の前駆体に対するフラグメントイオン確率統計が含まれており、一対のペプチド配列と電荷状態である。
- 参考スコア(独自算出の注目度): 11.487378569927499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proteins perform nearly all cellular functions and constitute most drug targets, making their analysis fundamental to understanding human biology in health and disease. Tandem mass spectrometry (MS$^2$) is the major analytical technique in proteomics that identifies peptides by ionizing them, fragmenting them, and using the resulting mass spectra to identify and quantify proteins in biological samples. In MS$^2$ analysis, peptide fragment ion probability prediction plays a critical role, enhancing the accuracy of peptide identification from mass spectra as a complement to the intensity information. Current approaches rely on global statistics of fragmentation, which assumes that a fragment's probability is uniform across all peptides. Nevertheless, this assumption is oversimplified from a biochemical principle point of view and limits accurate prediction. To address this gap, we present Pep2Prob, the first comprehensive dataset and benchmark designed for peptide-specific fragment ion probability prediction. The proposed dataset contains fragment ion probability statistics for 608,780 unique precursors (each precursor is a pair of peptide sequence and charge state), summarized from more than 183 million high-quality, high-resolution, HCD MS$^2$ spectra with validated peptide assignments and fragmentation annotations. We establish baseline performance using simple statistical rules and learning-based methods, and find that models leveraging peptide-specific information significantly outperform previous methods using only global fragmentation statistics. Furthermore, performance across benchmark models with increasing capacities suggests that the peptide-fragmentation relationship exhibits complex nonlinearities requiring sophisticated machine learning approaches.
- Abstract(参考訳): タンパク質は、ほとんど全ての細胞機能を実行し、ほとんどの薬物標的を構成するため、その分析は健康と病気における人間の生物学を理解するのに基礎となる。
タンデム質量分析法(英: Tandem mass spectrometry、MS$^2$)は、プロテオミクスにおける主要な分析手法であり、タンパク質をイオン化して分解し、その結果の質量スペクトルを用いて生物学的試料中のタンパク質を同定し定量化する。
MS$^2$分析では、ペプチドフラグメントイオンの予測が重要な役割を担い、強度情報の補体として質量スペクトルからのペプチド同定の精度を高める。
現在のアプローチは、断片化のグローバル統計に依存しており、断片化の確率は全てのペプチドで均一であると仮定している。
しかしながら、この仮定は生化学的原理の観点から過度に単純化され、正確な予測が制限される。
このギャップに対処するため、ペプチド特異的なフラグメントイオンの予測のために設計された最初の包括的データセットとベンチマークであるPep2Probを提案する。
提案データセットは608,780個の前駆体(各前駆体は1対のペプチド配列と電荷状態)に対するフラグメントイオン確率統計を含んでおり、高品位、高解像度、HCD MS$^2$スペクトルと検証されたペプチド割り当てとフラグメントアノテーションから要約されている。
我々は,単純な統計規則と学習に基づく手法を用いてベースライン性能を確立し,ペプチド特異的情報を利用したモデルが,グローバルな断片化統計のみを用いて従来の手法よりも有意に優れていることを見出した。
さらに, ペプチドフラグメンテーション関係は, 高度な機械学習アプローチを必要とする複雑な非線形性を示すことが示唆された。
関連論文リスト
- Foundation model for mass spectrometry proteomics [22.385489678681907]
本稿では,質量スペクトルの1つの基礎モデルの下で,様々なスペクトル予測タスクを統合することを提案する。
これらの事前訓練されたスペクトル表現を用いることで、下流の4つのタスクの性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-16T04:40:07Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - Peptide Sequencing Via Protein Language Models [0.0]
アミノ酸の限られた配列の測定に基づいてペプチドの完全配列を決定するためのタンパク質言語モデルを提案する。
本手法は, 特定が困難であるアミノ酸を選択的にマスキングすることにより, 部分的シークエンシングデータをシミュレートする。
アミノ酸が4つしか知られていない場合、アミノ酸当たりの精度は90.5%に達する。
論文 参考訳(メタデータ) (2024-08-01T20:12:49Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - AdaNovo: Adaptive \emph{De Novo} Peptide Sequencing with Conditional Mutual Information [46.23980841020632]
本稿では,各アミノ酸/ペプチド間の条件付き相互情報(CMI)を計算する新しいフレームワークであるAdaNovoを提案する。
AdaNovoは翻訳後修飾(PTM)によるアミノ酸の同定に優れ、データノイズに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-09T11:54:58Z) - Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry [1.338778493151964]
本稿では,変換器アーキテクチャに基づくディープラーニングモデルであるDiaTransを紹介する。
DIA質量分析データからペプチド配列を解読する。
その結果,既存のSTOA法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-02-17T19:04:23Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。