論文の概要: Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision
- arxiv url: http://arxiv.org/abs/2410.19222v1
- Date: Fri, 25 Oct 2024 00:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:33:36.021379
- Title: Peptide-GPT: Generative Design of Peptides using Generative Pre-trained Transformers and Bio-informatic Supervision
- Title(参考訳): ペプチド-GPT: 生成型事前学習トランスとバイオインフォマティック・スーパービジョンを用いたペプチドの生成設計
- Authors: Aayush Shah, Chakradhar Guntuboina, Amir Barati Farimani,
- Abstract要約: 異なる性質を持つタンパク質配列を生成するのに適したタンパク質言語モデルを導入する。
生成した配列をそれらの難易度スコアに基づいてランク付けし、タンパク質の許容凸殻の外にある配列をフィルタリングする。
溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
- 参考スコア(独自算出の注目度): 7.275932354889042
- License:
- Abstract: In recent years, natural language processing (NLP) models have demonstrated remarkable capabilities in various domains beyond traditional text generation. In this work, we introduce PeptideGPT, a protein language model tailored to generate protein sequences with distinct properties: hemolytic activity, solubility, and non-fouling characteristics. To facilitate a rigorous evaluation of these generated sequences, we established a comprehensive evaluation pipeline consisting of ideas from bioinformatics to retain valid proteins with ordered structures. First, we rank the generated sequences based on their perplexity scores, then we filter out those lying outside the permissible convex hull of proteins. Finally, we predict the structure using ESMFold and select the proteins with pLDDT values greater than 70 to ensure ordered structure. The properties of generated sequences are evaluated using task-specific classifiers - PeptideBERT and HAPPENN. We achieved an accuracy of 76.26% in hemolytic, 72.46% in non-hemolytic, 78.84% in non-fouling, and 68.06% in solubility protein generation. Our experimental results demonstrate the effectiveness of PeptideGPT in de novo protein design and underscore the potential of leveraging NLP-based approaches for paving the way for future innovations and breakthroughs in synthetic biology and bioinformatics. Codes, models, and data used in this study are freely available at: https://github.com/aayush-shah14/PeptideGPT.
- Abstract(参考訳): 近年、自然言語処理(NLP)モデルは、従来のテキスト生成を超えた様々な領域において顕著な能力を示している。
本研究では, 溶血活性, 溶解度, 非汚濁特性の異なるタンパク質配列を生成するのに適したタンパク質言語モデルであるPeptideGPTを紹介する。
これらの生成配列の厳密な評価を容易にするため,バイオインフォマティクスのアイデアによる総合的な評価パイプラインを構築した。
まず、それらの難易度スコアに基づいて生成された配列をランク付けし、次に許容される凸殻の外にある配列をフィルタリングする。
最後に、ESMFoldを用いて構造を予測し、pLDDT値が70を超えるタンパク質を選択し、秩序構造を確実にする。
PeptideBERTとHAPPENNというタスク固有の分類器を用いて、生成された配列の特性を評価する。
溶血率76.26%, 非溶血率72.46%, 非溶血率78.84%, 溶血率68.06%であった。
本研究は, タンパク質設計におけるPeptideGPTの有効性を実証し, 合成生物学およびバイオインフォマティクスにおける今後の革新とブレークスルーの道を開くため, NLPベースのアプローチを活用する可能性を明らかにするものである。
この研究で使用されるコード、モデル、データは、https://github.com/aayush-shah14/PeptideGPTで無料で利用できる。
関連論文リスト
- Position Specific Scoring Is All You Need? Revisiting Protein Sequence Classification Tasks [41.7345616221048]
タンパク質配列のPSS表現と文字列カーネルの概念を組み合わせた重み付きPSSカーネル行列(W-PSSKM)を提案する。
この結果、タンパク質配列分類の他の多くのアプローチよりも優れた新しいカーネル関数がもたらされる。
論文 参考訳(メタデータ) (2024-10-16T15:16:50Z) - Peptide Sequencing Via Protein Language Models [0.0]
アミノ酸の限られた配列の測定に基づいてペプチドの完全配列を決定するためのタンパク質言語モデルを提案する。
本手法は, 特定が困難であるアミノ酸を選択的にマスキングすることにより, 部分的シークエンシングデータをシミュレートする。
アミノ酸が4つしか知られていない場合、アミノ酸当たりの精度は90.5%に達する。
論文 参考訳(メタデータ) (2024-08-01T20:12:49Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - DisorderUnetLM: Validating ProteinUnet for efficient protein intrinsic disorder prediction [0.0]
内因性障害領域の予測は、タンパク質の機能やダイナミクスを理解する上で重要な意味を持つ。
近年,タンパク質言語モデル(pLM)に基づく新しい世代の予測器が出現している。
本稿では、タンパク質Unetの考え方に基づく新しい障害UnetLM障害予測器について紹介する。
論文 参考訳(メタデータ) (2024-04-11T20:14:14Z) - Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry [1.338778493151964]
本稿では,変換器アーキテクチャに基づくディープラーニングモデルであるDiaTransを紹介する。
DIA質量分析データからペプチド配列を解読する。
その結果,既存のSTOA法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-02-17T19:04:23Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。