論文の概要: pUniFind: a unified large pre-trained deep learning model pushing the limit of mass spectra interpretation
- arxiv url: http://arxiv.org/abs/2507.00087v1
- Date: Mon, 30 Jun 2025 08:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.347425
- Title: pUniFind: a unified large pre-trained deep learning model pushing the limit of mass spectra interpretation
- Title(参考訳): pUniFind:質量スペクトル解釈の限界を推し進める大規模事前学習モデル
- Authors: Jiale Zhao, Pengzhi Mao, Kaifei Wang, Yiming Li, Yaping Peng, Ranfei Chen, Shuqi Lu, Xiaohong Ji, Jiaxiang Ding, Xin Zhang, Yucheng Liao, Weinan E, Weijie Zhang, Han Wen, Hao Chi,
- Abstract要約: pUniFindは、エンド・ツー・エンドのペプチド・スペクトルスコアとオープン・ゼロショット・デ・ノボシークエンシングを統合している。
免疫ペプチドミクスでは、同定されたペプチドの数が42.6%増加する。
pUniFindは、300倍の検索スペースがあるにもかかわらず、既存のde novoメソッドよりも60%多いPSMを識別する。
- 参考スコア(独自算出の注目度): 9.27319322606124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has advanced mass spectrometry data interpretation, yet most models remain feature extractors rather than unified scoring frameworks. We present pUniFind, the first large-scale multimodal pre-trained model in proteomics that integrates end-to-end peptide-spectrum scoring with open, zero-shot de novo sequencing. Trained on over 100 million open search-derived spectra, pUniFind aligns spectral and peptide modalities via cross modality prediction and outperforms traditional engines across diverse datasets, particularly achieving a 42.6 percent increase in the number of identified peptides in immunopeptidomics. Supporting over 1,300 modifications, pUniFind identifies 60 percent more PSMs than existing de novo methods despite a 300-fold larger search space. A deep learning based quality control module further recovers 38.5 percent additional peptides including 1,891 mapped to the genome but absent from reference proteomes while preserving full fragment ion coverage. These results establish a unified, scalable deep learning framework for proteomic analysis, offering improved sensitivity, modification coverage, and interpretability.
- Abstract(参考訳): 深層学習には高度な質量分析データ解釈があるが、ほとんどのモデルは統合されたスコアリングフレームワークではなく特徴抽出器のままである。
プロテオミクスにおける最初の大規模マルチモーダル事前訓練モデルであるpUniFindについて述べる。
1億以上のオープンサーチ由来のスペクトルに基づいて訓練されたpUniFindは、クロスモーダル予測を通じてスペクトルとペプチドのモダリティを調整し、従来のエンジンを様々なデータセットで上回り、特に免疫ペプチドミクスにおいて特定ペプチドの数が42.6%増加した。
1300以上の修正をサポートするpUniFindは、300倍の検索スペースがあるにもかかわらず、既存のde novoメソッドよりも60%多いPSMを識別する。
深層学習に基づく品質制御モジュールは、ゲノムにマッピングされた1,891個を含む38.5%の追加ペプチドを回収するが、完全なフラグメントイオンカバレッジを維持しながら参照プロテオームを欠いている。
これらの結果は、プロテオミクス分析のための統一的でスケーラブルなディープラーニングフレームワークを確立し、感度の向上、修正カバレッジ、解釈可能性を提供する。
関連論文リスト
- Fitness aligned structural modeling enables scalable virtual screening with AuroBind [56.720030595081845]
AuroBindは、100万規模のケモゲノミクスデータ上に、カスタム原子レベルの構造モデルを微調整するスケーラブルな仮想スクリーニングフレームワークである。
AuroBindは、直接選好最適化、高信頼錯体からの自己蒸留、教師-学生加速戦略を統合している。
AuroBindは10の疾患関連目標に対して、実験的なヒット率7-69%を達成し、トップ化合物はナノモラール下からピコモラールに到達した。
論文 参考訳(メタデータ) (2025-08-04T07:34:48Z) - Diffusion Decoding for Peptide De Novo Sequencing [71.91773485443125]
本稿では,離散データ領域に適応した拡散デコーダについて検討する。
これらのデコーダは異なるアプローチを提供し、任意のペプチドセグメントからシーケンス生成を開始することができる。
ペプチドの精度とリコールは依然として0であったが, DINOISER損失関数を用いた最も優れた拡散デコーダ設計により, 0.373でアミノ酸リコールの統計的改善が得られた。
論文 参考訳(メタデータ) (2025-07-15T03:38:01Z) - Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing [32.29218860420551]
RankNovoは、de novoペプチドシークエンシングを強化する最初の深層構造である。
我々の研究は、既存のシングルモデルパラダイムに挑戦し、正確なde novoシークエンシングのフロンティアを前進させる新しい戦略を提示する。
論文 参考訳(メタデータ) (2025-05-23T06:56:55Z) - A general language model for peptide identification [4.044600688588866]
PDeepPPは、事前訓練されたタンパク質言語モデルとハイブリッドトランスフォーマー-畳み込みアーキテクチャを統合する統合ディープラーニングフレームワークである。
大規模かつ正確なペプチド分析を可能にすることにより、PDeepPPは生物医学研究と疾患治療のための新しい治療標的の発見を支援している。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry [1.338778493151964]
本稿では,変換器アーキテクチャに基づくディープラーニングモデルであるDiaTransを紹介する。
DIA質量分析データからペプチド配列を解読する。
その結果,既存のSTOA法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-02-17T19:04:23Z) - ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide
Sequencing [70.12220342151113]
ContraNovoは、コントラスト学習を利用してスペクトルとペプチドの関係を抽出する先駆的アルゴリズムである。
ContraNovoは、現代最先端のソリューションを一貫して誇張している。
論文 参考訳(メタデータ) (2023-12-18T12:49:46Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - DePS: An improved deep learning model for de novo peptide sequencing [7.468176246958974]
そこで本研究では,de novoペプチドシークエンシングの精度を向上させる改良モデルであるDePSを提案する。
同じDeepNovoV2の試験セットでは、DePSモデルは、それぞれ74.22%、74.21%、および41.68%の優れた結果を得た。
論文 参考訳(メタデータ) (2022-03-16T16:45:48Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。