論文の概要: PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments
- arxiv url: http://arxiv.org/abs/2507.07032v1
- Date: Tue, 17 Jun 2025 04:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.556374
- Title: PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments
- Title(参考訳): PLAME: 事前訓練された言語モデルを活用したタンパク質多重配列配列配列の生成
- Authors: Hanqun Cao, Xinyi Zhou, Zijun Gao, Chenyu Wang, Xin Gao, Zhi Zhang, Chunbin Gu, Ge Liu, Pheng-Ann Heng,
- Abstract要約: タンパク質構造予測は、薬物の発見と生物学的機能の理解に不可欠である。
ほとんどの折り畳みモデルは予測性能を高めるために多重シーケンスアライメント(MSA)に大きく依存している。
我々は、事前学習されたタンパク質言語モデルからの進化的埋め込みを利用する新しいMSA設計モデルPLAMEを提案する。
- 参考スコア(独自算出の注目度): 53.55710514466851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein structure prediction is essential for drug discovery and understanding biological functions. While recent advancements like AlphaFold have achieved remarkable accuracy, most folding models rely heavily on multiple sequence alignments (MSAs) to boost prediction performance. This dependency limits their effectiveness on low-homology proteins and orphan proteins, where MSA information is sparse or unavailable. To address this limitation, we propose PLAME, a novel MSA design model that leverages evolutionary embeddings from pretrained protein language models. Unlike existing methods, PLAME introduces pretrained representations to enhance evolutionary information and employs a conservation-diversity loss to enhance generation quality. Additionally, we propose a novel MSA selection method to effectively screen high-quality MSAs and improve folding performance. We also propose a sequence quality assessment metric that provides an orthogonal perspective to evaluate MSA quality. On the AlphaFold2 benchmark of low-homology and orphan proteins, PLAME achieves state-of-the-art performance in folding enhancement and sequence quality assessment, with consistent improvements demonstrated on AlphaFold3. Ablation studies validate the effectiveness of the MSA selection method, while extensive case studies on various protein types provide insights into the relationship between AlphaFold's prediction quality and MSA characteristics. Furthermore, we demonstrate that PLAME can serve as an adapter achieving AlphaFold2-level accuracy with the ESMFold's inference speed.
- Abstract(参考訳): タンパク質構造予測は、薬物の発見と生物学的機能の理解に不可欠である。
AlphaFoldのような最近の進歩は目覚ましい精度を達成したが、ほとんどの折りたたみモデルは予測性能を高めるために多重シーケンスアライメント(MSA)に大きく依存している。
この依存は、低ホモロジータンパク質や孤児タンパク質に対する効果を制限し、MSA情報が少ないか、利用できない。
この制限に対処するために、事前訓練されたタンパク質言語モデルからの進化的埋め込みを利用する新しいMSA設計モデルPLAMEを提案する。
既存の方法とは異なり、PLAMEは進化的情報を高めるために事前訓練された表現を導入し、生成品質を高めるために保存的多様性の喪失を利用する。
さらに,高品質なMSAを効果的にスクリーニングし,折り畳み性能を向上させる新しいMSA選択法を提案する。
また、MSAの品質を評価するための直交的な視点を提供するシーケンス品質評価指標を提案する。
AlphaFold2の低ホモロジーおよび孤児タンパク質のベンチマークでは、PLAMEは、AlphaFold3で一貫した改善とともに、折りたたみ向上とシーケンス品質の評価において最先端のパフォーマンスを達成する。
アブレーション研究は、MSA選択法の有効性を検証する一方で、様々なタンパク質タイプに関する広範なケーススタディは、AlphaFoldの予測品質とMSA特性との関係についての洞察を提供する。
さらに, PLAMEは, ESMFoldの推論速度でAlphaFold2レベルの精度を実現するアダプタとして機能することを示した。
関連論文リスト
- AMix-1: A Pathway to Test-Time Scalable Protein Foundation Model [92.51919604882984]
本稿では,Flow Bayesian Networks上に構築された強力なタンパク質基盤モデルAMix-1を紹介する。
AMix-1は、事前学習のスケーリング法則、創発的能力分析、コンテキスト内学習機構、テスト時間スケーリングアルゴリズムを含む、体系的なトレーニング手法によって強化されている。
この基盤を基盤として、タンパク質設計を汎用フレームワークに統合するためのマルチシーケンスアライメント(MSA)ベースのコンテキスト内学習戦略を考案した。
論文 参考訳(メタデータ) (2025-07-11T17:02:25Z) - DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - NovoBench: Benchmarking Deep Learning-based De Novo Peptide Sequencing Methods in Proteomics [58.03989832372747]
Emphde novoペプチドシークエンシングのための初となるNovoBenchベンチマークを報告する。
多様な質量スペクトルデータ、統合モデル、総合的な評価指標から構成される。
DeepNovo、PointNovo、Casanovo、InstaNovo、AdaNovo、$pi$-HelixNovoといった最近の手法が私たちのフレームワークに統合されています。
論文 参考訳(メタデータ) (2024-06-16T08:23:21Z) - MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training [48.398329286769304]
マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。
MSAGPTは、低MSA状態下でのMSA生成前訓練を通じてタンパク質構造予測を促進する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-08T04:23:57Z) - Fine-tuning Protein Language Models with Deep Mutational Scanning improves Variant Effect Prediction [3.2358123775807575]
タンパク質言語モデル(PLM)は、タンパク質コード変異体の機能的影響と臨床的意義を予測するための高性能でスケーラブルなツールとして登場した。
深部突然変異走査法(DMS)による可変効果の実験的マップを用いたPLMの性能向上のための新しい微調整手法を提案する。
これらの結果から,DMSは配列多様性の有望な源であり,多変量効果予測のためのPLMの性能向上のための教師付きトレーニングデータであることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T14:50:40Z) - Beyond ESM2: Graph-Enhanced Protein Sequence Modeling with Efficient Clustering [24.415612744612773]
タンパク質は生命の過程に必須であり、進化と多様性を支えている。
シークエンシング技術の進歩により数百万のタンパク質が明らかにされ、生物学的分析とAI開発のための高度な事前学習されたタンパク質モデルの必要性が強調されている。
FacebookのESM2は、これまでで最も先進的なタンパク質言語モデルであり、教師なし学習にマスク付き予測タスクを活用し、顕著な生化学的精度でアミノ酸表現を作成する。
しかし、機能的なタンパク質の洞察の提供に欠けており、表現の質を高める機会を示唆している。
本研究は,タンパク質ファミリー分類をESM2のトレーニングに組み込むことにより,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-24T11:09:43Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence
Alignment Generation [30.2874172276931]
我々はMSA-Augmenterを導入し、データベースに存在しない新規なタンパク質配列を生成する。
CASP14で行った実験では、MSA-Augmenterは、下層のMSAから共進化情報を保持できるde novo配列を生成できることが示されている。
論文 参考訳(メタデータ) (2023-06-02T14:13:50Z) - Unsupervisedly Prompting AlphaFold2 for Few-Shot Learning of Accurate
Folding Landscape and Protein Structure Prediction [28.630603355510324]
そこで我々は,メタ生成モデルであるEvoGenを提案し,貧弱なMSAターゲットに対するAlphaFold2のアンダーパフォーマンスを改善する。
EvoGenは、キャリブレーションまたは実質的に生成されたホモログシーケンスでモデルにプロンプトすることで、AlphaFold2を低データで正確に折り畳むのに役立つ。
論文 参考訳(メタデータ) (2022-08-20T10:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。