論文の概要: Curriculum Learning for Biological Sequence Prediction: The Case of De Novo Peptide Sequencing
- arxiv url: http://arxiv.org/abs/2506.13485v1
- Date: Mon, 16 Jun 2025 13:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.589116
- Title: Curriculum Learning for Biological Sequence Prediction: The Case of De Novo Peptide Sequencing
- Title(参考訳): 生物配列予測のためのカリキュラム学習:De Novo Peptide Sequencingの事例
- Authors: Xiang Zhang, Jiaqi Wei, Zijie Qiu, Sheng Xu, Nanqing Dong, Zhiqiang Gao, Siqi Sun,
- Abstract要約: 本稿では,構造的タンパク質配列学習戦略を取り入れた非自己回帰ペプチドシークエンシングモデルを提案する。
我々のカリキュラム学習戦略は、様々なデータ分布に対するサンプルトレーニングに基づいて、NATトレーニング失敗頻度を90%以上削減する。
- 参考スコア(独自算出の注目度): 21.01399785232482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Peptide sequencing-the process of identifying amino acid sequences from mass spectrometry data-is a fundamental task in proteomics. Non-Autoregressive Transformers (NATs) have proven highly effective for this task, outperforming traditional methods. Unlike autoregressive models, which generate tokens sequentially, NATs predict all positions simultaneously, leveraging bidirectional context through unmasked self-attention. However, existing NAT approaches often rely on Connectionist Temporal Classification (CTC) loss, which presents significant optimization challenges due to CTC's complexity and increases the risk of training failures. To address these issues, we propose an improved non-autoregressive peptide sequencing model that incorporates a structured protein sequence curriculum learning strategy. This approach adjusts protein's learning difficulty based on the model's estimated protein generational capabilities through a sampling process, progressively learning peptide generation from simple to complex sequences. Additionally, we introduce a self-refining inference-time module that iteratively enhances predictions using learned NAT token embeddings, improving sequence accuracy at a fine-grained level. Our curriculum learning strategy reduces NAT training failures frequency by more than 90% based on sampled training over various data distributions. Evaluations on nine benchmark species demonstrate that our approach outperforms all previous methods across multiple metrics and species.
- Abstract(参考訳): ペプチドシークエンシング - 質量分析データからアミノ酸配列を同定するプロセスは、プロテオミクスの基本的な課題である。
非自己回帰変換器 (Non-Autoregressive Transformer:NAT) は、従来の手法よりも優れていることが証明されている。
トークンを逐次生成する自己回帰モデルとは異なり、NATは全位置を同時に予測する。
しかしながら、既存のNATアプローチは、しばしばコネクショニストの時間分類(CTC)の損失に依存しており、CTCの複雑さとトレーニング失敗のリスクの増加による大幅な最適化の課題が提示される。
これらの課題に対処するため,構造化タンパク質配列学習戦略を取り入れた非自己回帰ペプチドシークエンシングモデルを提案する。
このアプローチは、単純な配列から複雑な配列までのペプチド生成を段階的に学習するサンプリングプロセスを通じて、モデルの推定したタンパク質生成能力に基づいて、タンパク質の学習困難を調整する。
さらに、学習したNATトークンの埋め込みを用いて予測を反復的に強化し、きめ細かいレベルでのシーケンス精度を向上させる自己精製推論時モジュールを導入する。
我々のカリキュラム学習戦略は、様々なデータ分布に対するサンプルトレーニングに基づいて、NATトレーニング失敗頻度を90%以上削減する。
9種のベンチマーク種について評価したところ,本手法は従来手法よりも多くの指標や種において優れていた。
関連論文リスト
- Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing [32.29218860420551]
RankNovoは、de novoペプチドシークエンシングを強化する最初の深層構造である。
我々の研究は、既存のシングルモデルパラダイムに挑戦し、正確なde novoシークエンシングのフロンティアを前進させる新しい戦略を提示する。
論文 参考訳(メタデータ) (2025-05-23T06:56:55Z) - A general language model for peptide identification [4.044600688588866]
PDeepPPは、事前訓練されたタンパク質言語モデルと並列トランスフォーマー-CNNアーキテクチャを統合するディープラーニングフレームワークである。
このモデルのハイブリッドアーキテクチャは、局所的なシーケンスモチーフとグローバルな構造特徴の両方をキャプチャするユニークな機能を示している。
決定的なグリコシル化部位の検出において99.5%の特異性を保ちながら、配列アライメント法よりも218*の加速を達成した。
論文 参考訳(メタデータ) (2025-02-21T17:31:22Z) - Reinforcement Learning for Sequence Design Leveraging Protein Language Models [14.477268882311991]
本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:31:36Z) - Boosting Adversarial Training via Fisher-Rao Norm-based Regularization [9.975998980413301]
本稿では,ロバスト性と精度のトレードオフを軽減するため,LOAT(Logit-Oriented Adversarial Training)と呼ばれる新たな正規化フレームワークを提案する。
実験により,提案した正規化戦略により,有意な対向学習アルゴリズムの性能が向上することを示した。
論文 参考訳(メタデータ) (2024-03-26T09:22:37Z) - Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。