Fugu-MT 論文翻訳(概要): Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry

論文の概要: Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry

arxiv url: http://arxiv.org/abs/2402.11363v1
Date: Sat, 17 Feb 2024 19:04:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:32:43.375269
Title: Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry
Title（参考訳）: データ非依存獲得質量分析のためのトランス型de novoペプチドシーケンシング
Authors: Shiva Ebrahimi and Xuan Guo
Abstract要約: 本稿では,トランスフォーマーアーキテクチャに基づくディープラーニングモデルであるCasanovo-DIAを紹介する。 DIA質量分析データからペプチド配列を解読する。その結果,既存のSTOA法よりも大幅に改善した。
参考スコア（独自算出の注目度）: 1.5815894395363679
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tandem mass spectrometry (MS/MS) stands as the predominant high-throughput technique for comprehensively analyzing protein content within biological samples. This methodology is a cornerstone driving the advancement of proteomics. In recent years, substantial strides have been made in Data-Independent Acquisition (DIA) strategies, facilitating impartial and non-targeted fragmentation of precursor ions. The DIA-generated MS/MS spectra present a formidable obstacle due to their inherent high multiplexing nature. Each spectrum encapsulates fragmented product ions originating from multiple precursor peptides. This intricacy poses a particularly acute challenge in de novo peptide/protein sequencing, where current methods are ill-equipped to address the multiplexing conundrum. In this paper, we introduce Casanovo-DIA, a deep-learning model based on transformer architecture. It deciphers peptide sequences from DIA mass spectrometry data. Our results show significant improvements over existing STOA methods, including DeepNovo-DIA and PepNet. Casanovo-DIA enhances precision by 15.14% to 34.8%, recall by 11.62% to 31.94% at the amino acid level, and boosts precision by 59% to 81.36% at the peptide level. Integrating DIA data and our Casanovo-DIA model holds considerable promise to uncover novel peptides and more comprehensive profiling of biological samples. Casanovo-DIA is freely available under the GNU GPL license at https://github.com/Biocomputing-Research-Group/Casanovo-DIA.
Abstract（参考訳）: タンデム質量分析法(tandem mass spectrometry, ms/ms)は、生物試料中のタンパク質含有量を包括的に分析する手法である。この方法論はプロテオミクスの進歩の原動力である。近年、データ非依存獲得(DIA)戦略において、前駆体イオンの公平かつ非標的の断片化を促進する重要な取り組みが進められている。 DIAが生成するMS/MSスペクトルは、その本質的に高い多重性のため、強い障害となる。各スペクトルは、複数の前駆体ペプチドに由来する断片化された生成イオンをカプセル化する。この複雑さはde novoペプチド/タンパク質シークエンシングにおいて特に深刻な課題となり、現在の手法では多重化に対処できない。本稿では,トランスフォーマーアーキテクチャに基づくディープラーニングモデルであるcasanovo-diaを紹介する。 DIA質量分析データからペプチド配列を解読する。その結果,DeepNovo-DIA や PepNet など,既存の STOA 手法よりも大幅に改善された。カサノボ-DIAは精度を15.14%から34.8%に、アミノ酸レベルでは11.62%から31.94%に、ペプチドレベルでは59%から81.36%に向上する。 DIAデータとCasanovo-DIAモデルを統合することで、新規ペプチドの発見と、より包括的な生物学的サンプルのプロファイリングが期待できる。 Casanovo-DIAはGNU GPLライセンスのもと、https://github.com/Biocomputing-Research-Group/Casanovo-DIAで無料で利用できる。

関連論文リスト

Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文参考訳（メタデータ） (2025-12-10T05:34:47Z)
Pep2Prob Benchmark: Predicting Fragment Ion Probability for MS$^2$-based Proteomics [11.487378569927499]
Pep2Probはペプチド特異的なイオン確率予測のために設計された最初の包括的なデータセットとベンチマークである。データセットには608,780の前駆体に対するフラグメントイオン確率統計が含まれており、一対のペプチド配列と電荷状態である。
論文参考訳（メタデータ） (2025-08-12T20:39:50Z)
A general language model for peptide identification [4.044600688588866]
PDeepPPは、事前訓練されたタンパク質言語モデルとハイブリッドトランスフォーマー-畳み込みアーキテクチャを統合する統合ディープラーニングフレームワークである。大規模かつ正確なペプチド分析を可能にすることにより、PDeepPPは生物医学研究と疾患治療のための新しい治療標的の発見を支援している。
論文参考訳（メタデータ） (2025-02-21T17:31:22Z)
Disentangling the Complex Multiplexed DIA Spectra in De Novo Peptide Sequencing [7.24090686599962]
Data-Independent Acquisition (DIA) は、高強度ピークをサンプリングするだけでなく、すべてのペプチドをカバーする感度を向上させるために導入された。デノボペプチドシークエンシングにおけるDIAデータの有用性は明らかになっていない。
論文参考訳（メタデータ） (2024-11-24T02:10:29Z)
Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision [7.275932354889042]
異なる性質を持つタンパク質配列を生成するのに適したタンパク質言語モデルを導入する。生成した配列をそれらの難易度スコアに基づいてランク付けし、タンパク質の許容凸殻の外にある配列をフィルタリングする。溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
論文参考訳（メタデータ） (2024-10-25T00:15:39Z)
NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。 DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文参考訳（メタデータ） (2024-06-16T08:23:21Z)
AdaNovo: Adaptive \emph{De Novo} Peptide Sequencing with Conditional Mutual Information [46.23980841020632]
本稿では,各アミノ酸/ペプチド間の条件付き相互情報(CMI)を計算する新しいフレームワークであるAdaNovoを提案する。 AdaNovoは翻訳後修飾(PTM)によるアミノ酸の同定に優れ、データノイズに対する堅牢性を示す。
論文参考訳（メタデータ） (2024-03-09T11:54:58Z)
ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing [70.12220342151113]
ContraNovoは、コントラスト学習を利用してスペクトルとペプチドの関係を抽出する先駆的アルゴリズムである。 ContraNovoは、現代最先端のソリューションを一貫して誇張している。
論文参考訳（メタデータ） (2023-12-18T12:49:46Z)
Efficiently Predicting Protein Stability Changes Upon Single-point Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文参考訳（メタデータ） (2023-12-07T03:25:49Z)
Efficient Prediction of Peptide Self-assembly through Sequential and Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文参考訳（メタデータ） (2023-07-17T00:43:33Z)
DePS: An improved deep learning model for de novo peptide sequencing [7.468176246958974]
そこで本研究では,de novoペプチドシークエンシングの精度を向上させる改良モデルであるDePSを提案する。同じDeepNovoV2の試験セットでは、DePSモデルは、それぞれ74.22%、74.21%、および41.68%の優れた結果を得た。
論文参考訳（メタデータ） (2022-03-16T16:45:48Z)
A Systematic Approach to Featurization for Cancer Drug Sensitivity Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。 RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文参考訳（メタデータ） (2020-04-30T20:42:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。