論文の概要: PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Prediction
- arxiv url: http://arxiv.org/abs/2605.01945v1
- Date: Sun, 03 May 2026 16:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.008986
- Title: PepSpecBench: A Unified Evaluation Benchmark for Peptide Tandem Mass Spectrometry Prediction
- Title(参考訳): PepSpecBench: ペプチドタンデム質量分析法の統一評価ベンチマーク
- Authors: Zhiwen Yang, Pan Liu, Yifan Li, Yunhua Zhong, Jun Xia,
- Abstract要約: PepSpecBenchはペプチドMS/MSスペクトル予測のための統一ベンチマークである。
補完的な公開データセット間でのデータ前処理を標準化する。
また、シークエンスリークをなくすための厳格なバックボーン結合分割戦略も実施している。
- 参考スコア(独自算出の注目度): 17.33669468355787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tandem mass spectrometry provides a high-throughput framework for identifying and quantifying proteins in complex biological samples. In computational proteomics, predicting peptide MS/MS spectra is a critical task, enabling downstream applications such as large-scale peptide identification and quantification. While deep learning architectures have substantially improved prediction accuracy, three evaluation challenges obscure the true progress of the field. First, inconsistent data preprocessing and incompatible model output spaces hinder fair model comparison. Second, flawed data splitting strategies can permit hidden sequence leakage and inflate reported performance. Third, existing evaluations typically lack comprehensive cross-species benchmarking and systematic assessment of model robustness to influential experimental conditions. To address these challenges, we propose PepSpecBench, a unified benchmark for peptide MS/MS spectrum prediction. PepSpecBench standardizes data preprocessing across complementary public datasets, enforces a strict backbone-disjoint splitting strategy to eliminate sequence leakage, and evaluates diverse architectures within a shared fragment-ion representation space. It further introduces a comprehensive multi-species evaluation suite and physically grounded metadata perturbation probes to assess model robustness and instrument awareness. We uncover previously unrecognized performance discrepancies and robustness limitations across six representative models, providing actionable insights for future model design, evaluation and practical deployment.
- Abstract(参考訳): タンデム質量分析法は、複雑な生物学的サンプル中のタンパク質を同定し定量化するための高スループットの枠組みを提供する。
計算プロテオミクスにおいて、ペプチドMS/MSスペクトルの予測は重要な課題であり、大規模ペプチドの同定や定量化といった下流の応用を可能にする。
ディープラーニングアーキテクチャは予測精度を大幅に向上させたが、3つの評価課題は分野の真の進歩を曖昧にしている。
まず、一貫性のないデータ前処理と非互換なモデル出力空間は、公正なモデル比較を妨げる。
第二に、欠陥のあるデータ分割戦略は、シークエンスリークを許可し、報告されたパフォーマンスを改善できる。
第3に、既存の評価は、一般的に、総合的な種間ベンチマークと、影響のある実験条件に対するモデルロバスト性の体系的な評価を欠いている。
これらの課題に対処するため,ペプチドMS/MSスペクトル予測のための統一ベンチマークであるPepSpecBenchを提案する。
PepSpecBenchは、補完的な公開データセット間でのデータ前処理を標準化し、シーケンスリークを排除するために厳格なバックボーン結合分割戦略を適用し、共有フラグメントイオン表現空間内の多様なアーキテクチャを評価する。
さらに、モデルロバスト性および機器認識を評価するために、総合的な多種評価スイートと、物理的に基底付けられたメタデータ摂動プローブを導入している。
6つの代表的なモデルにまたがって、これまで認識されていなかった性能の相違と堅牢性の限界を明らかにし、将来のモデル設計、評価、実践的なデプロイメントに実用的な洞察を提供する。
関連論文リスト
- Procrustean Bed for AI-Driven Retrosynthesis: A Unified Framework for Reproducible Evaluation [0.0]
RetroCastは、異種モデルの出力を共通スキーマに標準化する統合評価スイートである。
我々は、新しい標準ベンチマークスイートを用いて、検索ベースおよびシーケンスベースの主要なアルゴリズムを評価する。
論文 参考訳(メタデータ) (2025-12-08T01:26:39Z) - SeFEF: A Seizure Forecasting Evaluation Framework [0.0]
我々は,発作予測アルゴリズムの開発,評価,ドキュメントの効率化を目的としたPythonベースのフレームワークを紹介する。
このフレームワークは、データラベリング、クロスバリデーション分割、予測後処理、パフォーマンス評価、レポートを自動化する。
様々な予測水平線をサポートし、実装の詳細、トレーニングと評価設定、パフォーマンスメトリクスを文書化するモデルカードを含んでいる。
論文 参考訳(メタデータ) (2025-10-13T11:10:27Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - MeToken: Uniform Micro-environment Token Boosts Post-Translational Modification Prediction [65.33218256339151]
翻訳後修飾(PTM)はプロテオームの複雑さと機能を大幅に拡張する。
既存の計算手法は主に、配列依存的なモチーフの認識によって引き起こされる、PTM部位を予測するタンパク質配列に焦点を当てている。
本稿では,各酸のマイクロ環境をトークン化し,シーケンス情報と構造情報を統一された離散トークンに統合するMeTokenモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T07:14:28Z) - AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction [12.433560411515575]
抗体-抗原複合体構造データセット AsEP を導入する。
AsEPはその種類の中で最大であり、クラスタ化されたグループを提供する。
本稿では,タンパク質言語モデルとグラフニューラルネットワークによる構造モデリングの両方を活用する新しい手法WALLEを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:43:56Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。