論文の概要: epiGPTope: A machine learning-based epitope generator and classifier
- arxiv url: http://arxiv.org/abs/2509.03351v1
- Date: Wed, 03 Sep 2025 14:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.549612
- Title: epiGPTope: A machine learning-based epitope generator and classifier
- Title(参考訳): epiGPTope: 機械学習ベースのエピトープジェネレータと分類器
- Authors: Natalia Flechas Manrique, Alberto Martínez, Elena López-Martínez, Luc Andrea, Román Orus, Aitor Manteca, Aitziber L. Cortajarena, Llorenç Espinosa-Portalés,
- Abstract要約: エピトープは、抗体または免疫細胞受容体によって認識される短い抗原ペプチド配列である。
合成ライブラリの設計は、大規模な配列空間、n個のアミノ酸の線形に対する20n$の組み合わせにより困難であり、スクリーニングとテストは不可能である。
線形を微調整し,新しい有理的配列を生成する,大規模言語モデル epiGPTope を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Epitopes are short antigenic peptide sequences which are recognized by antibodies or immune cell receptors. These are central to the development of immunotherapies, vaccines, and diagnostics. However, the rational design of synthetic epitope libraries is challenging due to the large combinatorial sequence space, $20^n$ combinations for linear epitopes of n amino acids, making screening and testing unfeasible, even with high throughput experimental techniques. In this study, we present a large language model, epiGPTope, pre-trained on protein data and specifically fine-tuned on linear epitopes, which for the first time can directly generate novel epitope-like sequences, which are found to possess statistical properties analogous to the ones of known epitopes. This generative approach can be used to prepare libraries of epitope candidate sequences. We further train statistical classifiers to predict whether an epitope sequence is of bacterial or viral origin, thus narrowing the candidate library and increasing the likelihood of identifying specific epitopes. We propose that such combination of generative and predictive models can be of assistance in epitope discovery. The approach uses only primary amino acid sequences of linear epitopes, bypassing the need for a geometric framework or hand-crafted features of the sequences. By developing a method to create biologically feasible sequences, we anticipate faster and more cost-effective generation and screening of synthetic epitopes, with relevant applications in the development of new biotechnologies.
- Abstract(参考訳): エピトープは、抗体または免疫細胞受容体によって認識される短い抗原ペプチド配列である。
これらは、免疫療法、ワクチン、診断の開発の中心である。
しかし、合成エピトープライブラリーの合理的設計は、大きな組合せ配列空間、nアミノ酸の線形エピトープに対する20^n$の組み合わせにより、高いスループットの実験技術であってもスクリーニングと試験が不可能となるため、困難である。
本研究では,タンパク質データに基づいて事前学習され,特に線形エピトープで微調整された,新しいエピトープ様の配列を生成できる大規模言語モデルである epiGPTope を提案する。
この生成的アプローチはエピトープ候補配列のライブラリを作成するために使用できる。
さらに統計分類器を訓練して、エピトープ配列が細菌またはウイルス起源であるかどうかを予測し、候補ライブラリを狭め、特定のエピトープを同定する可能性を高める。
このような生成モデルと予測モデルの組み合わせがエピトープ発見の助けになる可能性が示唆された。
このアプローチでは、線形エピトープの一次アミノ酸配列のみを使用し、幾何学的枠組みや手作りの配列の特徴を必要としない。
生物学的に実現可能な配列を生成する手法を開発することにより,合成エピトープの生成とスクリーニングがより迅速で費用効率の良いものになることを期待できる。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction [12.433560411515575]
抗体-抗原複合体構造データセット AsEP を導入する。
AsEPはその種類の中で最大であり、クラスタ化されたグループを提供する。
本稿では,タンパク質言語モデルとグラフニューラルネットワークによる構造モデリングの両方を活用する新しい手法WALLEを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:43:56Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - BeeTLe: A Framework for Linear B-Cell Epitope Prediction and
Classification [0.43512163406551996]
本稿では, 線形B細胞予測と抗体型特異的分類のための, 深層学習に基づく新しいフレームワークを提案する。
そこで本研究では, モデルが抗体の表現を学習するのを助けるために, 固有分解に基づくアミノ酸符号化法を提案する。
最大の公開データベースからキュレートしたデータに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-09-05T09:18:29Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Improved proteasomal cleavage prediction with positive-unlabeled
learning [0.9023847175654603]
本稿では,拡張データセットと正の未ラベル学習のソリッド理論スペクトロメトリを用いて学習した新しい予測器を提案する。
改良された予測能力により、より正確なワクチン開発が可能になる。
論文 参考訳(メタデータ) (2022-09-14T11:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。