論文の概要: Optimizing Mirror-Image Peptide Sequence Design for Data Storage via Peptide Bond Cleavage Prediction
- arxiv url: http://arxiv.org/abs/2510.25814v1
- Date: Wed, 29 Oct 2025 14:40:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.508634
- Title: Optimizing Mirror-Image Peptide Sequence Design for Data Storage via Peptide Bond Cleavage Prediction
- Title(参考訳): ペプチドボンド開裂予測によるデータストレージのためのミラーイメージペプチドシーケンスの最適化
- Authors: Yilong Lu, Si Chen, Songyan Gao, Han Liu, Xin Dong, Wenfeng Shen, Guangtai Ding,
- Abstract要約: D-アミノ酸からなる鏡像ペプチドが有望な生物記憶媒体として出現している。
本研究は,鏡像ペプチド配列の設計を最適化することにより,間接的にシークエンシング精度を向上させることを提案する最初の試みである。
- 参考スコア(独自算出の注目度): 10.510705826988952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional non-biological storage media, such as hard drives, face limitations in both storage density and lifespan due to the rapid growth of data in the big data era. Mirror-image peptides composed of D-amino acids have emerged as a promising biological storage medium due to their high storage density, structural stability, and long lifespan. The sequencing of mirror-image peptides relies on \textit{de-novo} technology. However, its accuracy is limited by the scarcity of tandem mass spectrometry datasets and the challenges that current algorithms encounter when processing these peptides directly. This study is the first to propose improving sequencing accuracy indirectly by optimizing the design of mirror-image peptide sequences. In this work, we introduce DBond, a deep neural network based model that integrates sequence features, precursor ion properties, and mass spectrometry environmental factors for the prediction of mirror-image peptide bond cleavage. In this process, sequences with a high peptide bond cleavage ratio, which are easy to sequence, are selected. The main contributions of this study are as follows. First, we constructed MiPD513, a tandem mass spectrometry dataset containing 513 mirror-image peptides. Second, we developed the peptide bond cleavage labeling algorithm (PBCLA), which generated approximately 12.5 million labeled data based on MiPD513. Third, we proposed a dual prediction strategy that combines multi-label and single-label classification. On an independent test set, the single-label classification strategy outperformed other methods in both single and multiple peptide bond cleavage prediction tasks, offering a strong foundation for sequence optimization.
- Abstract(参考訳): ハードディスクのような従来の非生物学的記憶媒体は、ビッグデータ時代のデータの急速な成長により、ストレージ密度と寿命の制限に直面している。
D-アミノ酸からなる鏡像ペプチドは, 高い貯蔵密度, 構造安定性, 寿命が長いことから, 生体記憶媒体として有望な存在となった。
ミラーイメージペプチドのシークエンシングは、textit{de-novo} 技術に依存している。
しかし、その精度はタンデム質量分析データセットの不足と、これらのペプチドを直接処理する際に現在のアルゴリズムが直面する課題によって制限されている。
本研究は,鏡像ペプチド配列の設計を最適化することにより,間接的にシークエンシング精度を向上させることを提案する最初の試みである。
本研究は,ミラー-イメージペプチド結合切断の予測のための,配列特性,前駆体イオン特性,質量分析環境因子を統合したディープニューラルネットワークモデルDBondを紹介する。
この工程では、配列が容易な高いペプチド結合切断比を有する配列が選択される。
本研究の主な貢献は以下のとおりである。
まず, 513個のミラーイメージペプチドを含むタンデム質量分析データセットであるMIPD513を構築した。
次に,MIPD513に基づく約1250万のラベル付きデータを生成するPBCLAを開発した。
第3に,複数ラベルと単一ラベルの分類を組み合わせた二重予測手法を提案する。
独立したテストセットにおいて、シングルラベル分類戦略は、単一および複数ペプチド結合切断予測タスクにおいて他の方法よりも優れ、シーケンス最適化の強力な基盤を提供する。
関連論文リスト
- Pep2Prob Benchmark: Predicting Fragment Ion Probability for MS$^2$-based Proteomics [11.487378569927499]
Pep2Probはペプチド特異的なイオン確率予測のために設計された最初の包括的なデータセットとベンチマークである。
データセットには608,780の前駆体に対するフラグメントイオン確率統計が含まれており、一対のペプチド配列と電荷状態である。
論文 参考訳(メタデータ) (2025-08-12T20:39:50Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry [1.338778493151964]
本稿では,変換器アーキテクチャに基づくディープラーニングモデルであるDiaTransを紹介する。
DIA質量分析データからペプチド配列を解読する。
その結果,既存のSTOA法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-02-17T19:04:23Z) - ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide
Sequencing [70.12220342151113]
ContraNovoは、コントラスト学習を利用してスペクトルとペプチドの関係を抽出する先駆的アルゴリズムである。
ContraNovoは、現代最先端のソリューションを一貫して誇張している。
論文 参考訳(メタデータ) (2023-12-18T12:49:46Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Designing Biological Sequences via Meta-Reinforcement Learning and
Bayesian Optimization [68.28697120944116]
メタ強化学習を用いて自己回帰生成モデルを訓練し、選択のための有望なシーケンスを提案する。
我々は,データのサブセットのサンプリングによって誘導されるMDPの分布に対する最適ポリシーを求める問題として,この問題を提起する。
このようなアンサンブルに対するメタラーニングは,報酬の過小評価に対して頑健であり,競争的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-13T18:37:27Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。