論文の概要: Deep Learning Model for Amyloidogenicity Prediction using a Pre-trained Protein LLM
- arxiv url: http://arxiv.org/abs/2508.12575v1
- Date: Mon, 18 Aug 2025 02:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.946013
- Title: Deep Learning Model for Amyloidogenicity Prediction using a Pre-trained Protein LLM
- Title(参考訳): プレトレーニングタンパク質LLMを用いたアミロイド生成予測のための深層学習モデル
- Authors: Zohra Yagoub, Hafida Bouziane,
- Abstract要約: タンパク質のアミロイド生成性を予測する最近のアプローチは、進化のモチーフとアミノ酸の個々の性質に強く基づいている。
本研究では,事前学習したタンパク質大言語モデルから得られたタンパク質配列の文脈的特徴について検討した。
本手法は,10倍のクロスバリデーションで84.5%,テストデータセットで83%の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prediction of amyloidogenicity in peptides and proteins remains a focal point of ongoing bioinformatics. The crucial step in this field is to apply advanced computational methodologies. Many recent approaches to predicting amyloidogenicity within proteins are highly based on evolutionary motifs and the individual properties of amino acids. It is becoming increasingly evident that the sequence information-based features show high predictive performance. Consequently, our study evaluated the contextual features of protein sequences obtained from a pretrained protein large language model leveraging bidirectional LSTM and GRU to predict amyloidogenic regions in peptide and protein sequences. Our method achieved an accuracy of 84.5% on 10-fold cross-validation and an accuracy of 83% in the test dataset. Our results demonstrate competitive performance, highlighting the potential of LLMs in enhancing the accuracy of amyloid prediction.
- Abstract(参考訳): ペプチドおよびタンパク質のアミロイド生成性の予測は、現在進行中のバイオインフォマティクスの焦点となっている。
この分野における重要なステップは、高度な計算方法論を適用することである。
タンパク質のアミロイド生成を予測するための最近の多くのアプローチは、進化のモチーフとアミノ酸の個々の性質に基づいている。
シーケンス情報に基づく特徴が高い予測性能を示すようになった。
その結果,ペプチドおよびタンパク質配列のアミロイド生成領域を予測するために,双方向LSTMおよびGRUを利用した事前訓練されたタンパク質大言語モデルから得られたタンパク質配列の文脈的特徴について検討した。
本手法は,10倍のクロスバリデーションで84.5%,テストデータセットで83%の精度を達成した。
以上の結果から,LLMがアミロイド予測の精度向上に寄与する可能性が示唆された。
関連論文リスト
- PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments [53.55710514466851]
タンパク質構造予測は、薬物の発見と生物学的機能の理解に不可欠である。
ほとんどの折り畳みモデルは予測性能を高めるために多重シーケンスアライメント(MSA)に大きく依存している。
我々は、事前学習されたタンパク質言語モデルからの進化的埋め込みを利用する新しいMSA設計モデルPLAMEを提案する。
論文 参考訳(メタデータ) (2025-06-17T04:11:30Z) - Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-02-21T19:22:10Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - pLDDT-Predictor: High-speed Protein Screening Using Transformer and ESM2 [3.9703338485541244]
高速なタンパク質スクリーニングツールであるpLDDT-Predictorを導入する。
我々のモデルは、Pearsonの相関でAlphaFold2のpLDDTのスコアを0.7891と予測し、タンパク質を平均0.007秒で処理する。
pLDDT-Predictorは150万の多様なタンパク質配列の包括的データセットを用いて,高信頼構造を正確に分類することを示した。
論文 参考訳(メタデータ) (2024-10-11T03:19:44Z) - Protein-Mamba: Biological Mamba Models for Protein Function Prediction [18.642511763423048]
タンパク質-マンバは、タンパク質機能予測を改善するために、自己教師付き学習と微調整の両方を活用する新しい2段階モデルである。
実験の結果,Protein-Mambaはいくつかの最先端手法と比較して,競争力を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-22T22:51:56Z) - Peptide Sequencing Via Protein Language Models [0.0]
アミノ酸の限られた配列の測定に基づいてペプチドの完全配列を決定するためのタンパク質言語モデルを提案する。
本手法は, 特定が困難であるアミノ酸を選択的にマスキングすることにより, 部分的シークエンシングデータをシミュレートする。
アミノ酸が4つしか知られていない場合、アミノ酸当たりの精度は90.5%に達する。
論文 参考訳(メタデータ) (2024-08-01T20:12:49Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。