論文の概要: epiGPTope: A machine learning-based epitope generator and classifier
- arxiv url: http://arxiv.org/abs/2509.03351v1
- Date: Wed, 03 Sep 2025 14:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.549612
- Title: epiGPTope: A machine learning-based epitope generator and classifier
- Title(参考訳): epiGPTope: 機械学習ベースのエピトープジェネレータと分類器
- Authors: Natalia Flechas Manrique, Alberto Martínez, Elena López-Martínez, Luc Andrea, Román Orus, Aitor Manteca, Aitziber L. Cortajarena, Llorenç Espinosa-Portalés,
- Abstract要約: エピトープは、抗体または免疫細胞受容体によって認識される短い抗原ペプチド配列である。
合成ライブラリの設計は、大規模な配列空間、n個のアミノ酸の線形に対する20n$の組み合わせにより困難であり、スクリーニングとテストは不可能である。
線形を微調整し,新しい有理的配列を生成する,大規模言語モデル epiGPTope を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Epitopes are short antigenic peptide sequences which are recognized by antibodies or immune cell receptors. These are central to the development of immunotherapies, vaccines, and diagnostics. However, the rational design of synthetic epitope libraries is challenging due to the large combinatorial sequence space, $20^n$ combinations for linear epitopes of n amino acids, making screening and testing unfeasible, even with high throughput experimental techniques. In this study, we present a large language model, epiGPTope, pre-trained on protein data and specifically fine-tuned on linear epitopes, which for the first time can directly generate novel epitope-like sequences, which are found to possess statistical properties analogous to the ones of known epitopes. This generative approach can be used to prepare libraries of epitope candidate sequences. We further train statistical classifiers to predict whether an epitope sequence is of bacterial or viral origin, thus narrowing the candidate library and increasing the likelihood of identifying specific epitopes. We propose that such combination of generative and predictive models can be of assistance in epitope discovery. The approach uses only primary amino acid sequences of linear epitopes, bypassing the need for a geometric framework or hand-crafted features of the sequences. By developing a method to create biologically feasible sequences, we anticipate faster and more cost-effective generation and screening of synthetic epitopes, with relevant applications in the development of new biotechnologies.
- Abstract(参考訳): エピトープは、抗体または免疫細胞受容体によって認識される短い抗原ペプチド配列である。
これらは、免疫療法、ワクチン、診断の開発の中心である。
しかし、合成エピトープライブラリーの合理的設計は、大きな組合せ配列空間、nアミノ酸の線形エピトープに対する20^n$の組み合わせにより、高いスループットの実験技術であってもスクリーニングと試験が不可能となるため、困難である。
本研究では,タンパク質データに基づいて事前学習され,特に線形エピトープで微調整された,新しいエピトープ様の配列を生成できる大規模言語モデルである epiGPTope を提案する。
この生成的アプローチはエピトープ候補配列のライブラリを作成するために使用できる。
さらに統計分類器を訓練して、エピトープ配列が細菌またはウイルス起源であるかどうかを予測し、候補ライブラリを狭め、特定のエピトープを同定する可能性を高める。
このような生成モデルと予測モデルの組み合わせがエピトープ発見の助けになる可能性が示唆された。
このアプローチでは、線形エピトープの一次アミノ酸配列のみを使用し、幾何学的枠組みや手作りの配列の特徴を必要としない。
生物学的に実現可能な配列を生成する手法を開発することにより,合成エピトープの生成とスクリーニングがより迅速で費用効率の良いものになることを期待できる。
関連論文リスト
- PepEDiff: Zero-Shot Peptide Binder Design via Protein Embedding Diffusion [3.9876702935151225]
本稿では、標的受容体タンパク質配列とそのポケット残基の結合配列を設計する新規ペプチドバインダージェネレータであるPepediffを紹介する。
本手法は, 予め訓練されたタンパク質の埋め込みモデルから導かれる連続潜伏空間において, バインダー配列を直接生成することによって既存の手法から逸脱する。
その単純さにもかかわらず、ベンチマークテストやTIGITケーススタディにおいて、我々の手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2026-01-19T19:07:32Z) - BConformeR: A Conformer Based on Mutual Sampling for Unified Prediction of Continuous and Discontinuous Antibody Binding Sites [3.947298454012977]
本研究では,1,080の抗原-抗体複合体から得られた抗原配列に基づいて,コンフォメーションに基づくモデルを提案する。
CNNは線形の予測を強化し、Transformerモジュールはコンフォメーションの予測を改善する。
実験の結果,PCC,ROC-AUC,PR-AUC,F1のスコアにおいて,線形およびコンフォーメーションの両方において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-08-16T12:31:39Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - AsEP: Benchmarking Deep Learning Methods for Antibody-specific Epitope Prediction [12.433560411515575]
抗体-抗原複合体構造データセット AsEP を導入する。
AsEPはその種類の中で最大であり、クラスタ化されたグループを提供する。
本稿では,タンパク質言語モデルとグラフニューラルネットワークによる構造モデリングの両方を活用する新しい手法WALLEを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:43:56Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。
まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。
プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文 参考訳(メタデータ) (2024-02-28T18:57:56Z) - BeeTLe: A Framework for Linear B-Cell Epitope Prediction and
Classification [0.43512163406551996]
本稿では, 線形B細胞予測と抗体型特異的分類のための, 深層学習に基づく新しいフレームワークを提案する。
そこで本研究では, モデルが抗体の表現を学習するのを助けるために, 固有分解に基づくアミノ酸符号化法を提案する。
最大の公開データベースからキュレートしたデータに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-09-05T09:18:29Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Improved proteasomal cleavage prediction with positive-unlabeled
learning [0.9023847175654603]
本稿では,拡張データセットと正の未ラベル学習のソリッド理論スペクトロメトリを用いて学習した新しい予測器を提案する。
改良された予測能力により、より正確なワクチン開発が可能になる。
論文 参考訳(メタデータ) (2022-09-14T11:29:15Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。