論文の概要: pUniFind: a unified large pre-trained deep learning model pushing the limit of mass spectra interpretation
- arxiv url: http://arxiv.org/abs/2507.00087v1
- Date: Mon, 30 Jun 2025 08:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.347425
- Title: pUniFind: a unified large pre-trained deep learning model pushing the limit of mass spectra interpretation
- Title(参考訳): pUniFind:質量スペクトル解釈の限界を推し進める大規模事前学習モデル
- Authors: Jiale Zhao, Pengzhi Mao, Kaifei Wang, Yiming Li, Yaping Peng, Ranfei Chen, Shuqi Lu, Xiaohong Ji, Jiaxiang Ding, Xin Zhang, Yucheng Liao, Weinan E, Weijie Zhang, Han Wen, Hao Chi,
- Abstract要約: pUniFindは、エンド・ツー・エンドのペプチド・スペクトルスコアとオープン・ゼロショット・デ・ノボシークエンシングを統合している。
免疫ペプチドミクスでは、同定されたペプチドの数が42.6%増加する。
pUniFindは、300倍の検索スペースがあるにもかかわらず、既存のde novoメソッドよりも60%多いPSMを識別する。
- 参考スコア(独自算出の注目度): 9.27319322606124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has advanced mass spectrometry data interpretation, yet most models remain feature extractors rather than unified scoring frameworks. We present pUniFind, the first large-scale multimodal pre-trained model in proteomics that integrates end-to-end peptide-spectrum scoring with open, zero-shot de novo sequencing. Trained on over 100 million open search-derived spectra, pUniFind aligns spectral and peptide modalities via cross modality prediction and outperforms traditional engines across diverse datasets, particularly achieving a 42.6 percent increase in the number of identified peptides in immunopeptidomics. Supporting over 1,300 modifications, pUniFind identifies 60 percent more PSMs than existing de novo methods despite a 300-fold larger search space. A deep learning based quality control module further recovers 38.5 percent additional peptides including 1,891 mapped to the genome but absent from reference proteomes while preserving full fragment ion coverage. These results establish a unified, scalable deep learning framework for proteomic analysis, offering improved sensitivity, modification coverage, and interpretability.
- Abstract(参考訳): 深層学習には高度な質量分析データ解釈があるが、ほとんどのモデルは統合されたスコアリングフレームワークではなく特徴抽出器のままである。
プロテオミクスにおける最初の大規模マルチモーダル事前訓練モデルであるpUniFindについて述べる。
1億以上のオープンサーチ由来のスペクトルに基づいて訓練されたpUniFindは、クロスモーダル予測を通じてスペクトルとペプチドのモダリティを調整し、従来のエンジンを様々なデータセットで上回り、特に免疫ペプチドミクスにおいて特定ペプチドの数が42.6%増加した。
1300以上の修正をサポートするpUniFindは、300倍の検索スペースがあるにもかかわらず、既存のde novoメソッドよりも60%多いPSMを識別する。
深層学習に基づく品質制御モジュールは、ゲノムにマッピングされた1,891個を含む38.5%の追加ペプチドを回収するが、完全なフラグメントイオンカバレッジを維持しながら参照プロテオームを欠いている。
これらの結果は、プロテオミクス分析のための統一的でスケーラブルなディープラーニングフレームワークを確立し、感度の向上、修正カバレッジ、解釈可能性を提供する。
関連論文リスト
作成中
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。