論文の概要: Peptide Sequencing Via Protein Language Models
- arxiv url: http://arxiv.org/abs/2408.00892v1
- Date: Thu, 1 Aug 2024 20:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-05 15:06:04.652857
- Title: Peptide Sequencing Via Protein Language Models
- Title(参考訳): タンパク質言語モデルを用いたペプチド配列決定
- Authors: Thuong Le Hoai Pham, Jillur Rahman Saurav, Aisosa A. Omere, Calvin J. Heyl, Mohammad Sadegh Nasr, Cody Tyler Reynolds, Jai Prakash Yadav Veerla, Helen H Shang, Justyn Jaworski, Alison Ravenscraft, Joseph Anthony Buonomo, Jacob M. Luber,
- Abstract要約: アミノ酸の限られた配列の測定に基づいてペプチドの完全配列を決定するためのタンパク質言語モデルを提案する。
本手法は, 特定が困難であるアミノ酸を選択的にマスキングすることにより, 部分的シークエンシングデータをシミュレートする。
アミノ酸が4つしか知られていない場合、アミノ酸当たりの精度は90.5%に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a protein language model for determining the complete sequence of a peptide based on measurement of a limited set of amino acids. To date, protein sequencing relies on mass spectrometry, with some novel edman degregation based platforms able to sequence non-native peptides. Current protein sequencing techniques face limitations in accurately identifying all amino acids, hindering comprehensive proteome analysis. Our method simulates partial sequencing data by selectively masking amino acids that are experimentally difficult to identify in protein sequences from the UniRef database. This targeted masking mimics real-world sequencing limitations. We then modify and finetune a ProtBert derived transformer-based model, for a new downstream task predicting these masked residues, providing an approximation of the complete sequence. Evaluating on three bacterial Escherichia species, we achieve per-amino-acid accuracy up to 90.5% when only four amino acids ([KCYM]) are known. Structural assessment using AlphaFold and TM-score validates the biological relevance of our predictions. The model also demonstrates potential for evolutionary analysis through cross-species performance. This integration of simulated experimental constraints with computational predictions offers a promising avenue for enhancing protein sequence analysis, potentially accelerating advancements in proteomics and structural biology by providing a probabilistic reconstruction of the complete protein sequence from limited experimental data.
- Abstract(参考訳): アミノ酸の限られた配列の測定に基づいてペプチドの完全配列を決定するためのタンパク質言語モデルを提案する。
現在、タンパク質の塩基配列決定は質量分析に依存しており、非ネイティブペプチドを配列できる新しいエドマン・デグレゲーションベースのプラットフォームがある。
現在のタンパク質シークエンシング技術は、全てのアミノ酸を正確に同定する際の限界に直面し、包括的なプロテオーム解析を妨げる。
本手法は、UniRefデータベースからのタンパク質配列の特定が困難であるアミノ酸を選択的にマスキングすることにより、部分的シークエンシングデータをシミュレートする。
このマスクは現実世界のシークエンシングの限界を模倣している。
次に、ProtBertから派生したトランスフォーマーベースのモデルを変更して、これらのマスクされた残基を予測する新しい下流タスクを作成し、完全なシーケンスを近似する。
細菌性大腸菌の3種を評価すると、アミノ酸([KCYM])が4つしか知られていない場合、アミノ酸当たりの精度は90.5%に達する。
AlphaFold と TM-score を用いた構造評価により, 予測の生物学的妥当性が検証された。
このモデルはまた、種間パフォーマンスによる進化解析の可能性を示す。
このシミュレーションされた実験的制約と計算的予測を統合することで、タンパク質配列解析を向上し、限られた実験データから完全なタンパク質配列を確率論的に再構築することで、プロテオミクスと構造生物学の進歩を加速する可能性がある。
関連論文リスト
- Classifying Metamorphic versus Single-Fold Proteins with Statistical Learning and AlphaFold2 [1.5905165019585945]
複数の異なるコンフォメーションを採用できるメタモルフィックタンパク質は、AlphaFold2によって適切にモデル化できないコンフォメーション多様性を有する。
コンフォメーションアンサンブルを生成するためにAlphaFold2を再購入することで,新しい分類フレームワークを開発する。
既知の変成タンパク質と1つの折りたたみタンパク質のベンチマークデータセットに基づいて訓練されたランダム森林分類器は、クロスバリデーションで0.869の平均AUCを達成する。
論文 参考訳(メタデータ) (2025-12-10T20:37:21Z) - Self Distillation Fine-Tuning of Protein Language Models Improves Versatility in Protein Design [61.2846583160056]
Supervised Fine-tuning (SFT) は、大規模言語モデルを特殊なドメインに適応するための標準的なアプローチである。
これは、高品質なアノテートされたデータは、自然言語よりもタンパク質の入手がはるかに難しいためである。
生成したタンパク質配列の忠実度,信頼性,新規性を改善するために設計された,PLMの高速SFTのための簡易かつ汎用的なレシピを提案する。
論文 参考訳(メタデータ) (2025-12-10T05:34:47Z) - Deep Learning Model for Amyloidogenicity Prediction using a Pre-trained Protein LLM [0.0]
タンパク質のアミロイド生成性を予測する最近のアプローチは、進化のモチーフとアミノ酸の個々の性質に強く基づいている。
本研究では,事前学習したタンパク質大言語モデルから得られたタンパク質配列の文脈的特徴について検討した。
本手法は,10倍のクロスバリデーションで84.5%,テストデータセットで83%の精度を達成した。
論文 参考訳(メタデータ) (2025-08-18T02:21:48Z) - Pep2Prob Benchmark: Predicting Fragment Ion Probability for MS$^2$-based Proteomics [11.487378569927499]
Pep2Probはペプチド特異的なイオン確率予測のために設計された最初の包括的なデータセットとベンチマークである。
データセットには608,780の前駆体に対するフラグメントイオン確率統計が含まれており、一対のペプチド配列と電荷状態である。
論文 参考訳(メタデータ) (2025-08-12T20:39:50Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - Clustering for Protein Representation Learning [72.72957540484664]
本稿では,タンパク質の臨界成分を自動的に検出するニューラルネットワーククラスタリングフレームワークを提案する。
我々のフレームワークはタンパク質をグラフとして扱い、各ノードはアミノ酸を表し、各エッジはアミノ酸間の空間的またはシーケンシャルな接続を表す。
タンパク質の折り畳み分類, 酵素反応分類, 遺伝子期予測, 酵素コミッショニング数予測の4つの課題について検討した。
論文 参考訳(メタデータ) (2024-03-30T05:51:09Z) - AdaNovo: Adaptive \emph{De Novo} Peptide Sequencing with Conditional Mutual Information [46.23980841020632]
本稿では,各アミノ酸/ペプチド間の条件付き相互情報(CMI)を計算する新しいフレームワークであるAdaNovoを提案する。
AdaNovoは翻訳後修飾(PTM)によるアミノ酸の同定に優れ、データノイズに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-09T11:54:58Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - Plug & Play Directed Evolution of Proteins with Gradient-based Discrete
MCMC [1.0499611180329804]
機械学習ベースのタンパク質工学の長年の目標は、新しい突然変異の発見を加速することである。
本稿では,シリコにおけるタンパク質の進化のためのサンプリングフレームワークについて紹介する。
これらのモデルを構成することで、未知の突然変異を評価し、機能的タンパク質を含む可能性のある配列空間の領域を探索する能力を向上させることを目指している。
論文 参考訳(メタデータ) (2022-12-20T00:26:23Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Leveraging Sequence Embedding and Convolutional Neural Network for
Protein Function Prediction [27.212743275697825]
タンパク質機能予測の主な課題は、大きなラベル空間とラベル付きトレーニングデータの欠如である。
これらの課題を克服するために、教師なしシーケンス埋め込みと深部畳み込みニューラルネットワークの成功を活用する。
論文 参考訳(メタデータ) (2021-12-01T08:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。