論文の概要: Classifying Metamorphic versus Single-Fold Proteins with Statistical Learning and AlphaFold2
- arxiv url: http://arxiv.org/abs/2512.10066v1
- Date: Wed, 10 Dec 2025 20:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.058651
- Title: Classifying Metamorphic versus Single-Fold Proteins with Statistical Learning and AlphaFold2
- Title(参考訳): 統計的学習とAlphaFold2によるメタモルフィックとシングルフォールドタンパク質の分類
- Authors: Yongkai Chen, Samuel WK Wong, SC Kou,
- Abstract要約: 複数の異なるコンフォメーションを採用できるメタモルフィックタンパク質は、AlphaFold2によって適切にモデル化できないコンフォメーション多様性を有する。
コンフォメーションアンサンブルを生成するためにAlphaFold2を再購入することで,新しい分類フレームワークを開発する。
既知の変成タンパク質と1つの折りたたみタンパク質のベンチマークデータセットに基づいて訓練されたランダム森林分類器は、クロスバリデーションで0.869の平均AUCを達成する。
- 参考スコア(独自算出の注目度): 1.5905165019585945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable success of AlphaFold2 in providing accurate atomic-level prediction of protein structures from their amino acid sequence has transformed approaches to the protein folding problem. However, its core paradigm of mapping one sequence to one structure may only be appropriate for single-fold proteins with one stable conformation. Metamorphic proteins, which can adopt multiple distinct conformations, have conformational diversity that cannot be adequately modeled by AlphaFold2. Hence, classifying whether a given protein is metamorphic or single-fold remains a critical challenge for both laboratory experiments and computational methods. To address this challenge, we developed a novel classification framework by re-purposing AlphaFold2 to generate conformational ensembles via a multiple sequence alignment sampling method. From these ensembles, we extract a comprehensive set of features characterizing the conformational ensemble's modality and structural dispersion. A random forest classifier trained on a carefully curated benchmark dataset of known metamorphic and single-fold proteins achieves a mean AUC of 0.869 with cross-validation, demonstrating the effectiveness of our integrated approach. Furthermore, by applying our classifier to 600 randomly sampled proteins from the Protein Data Bank, we identified several potential metamorphic protein candidates -- including the 40S ribosomal protein S30, whose conformational change is crucial for its secondary function in antimicrobial defense. By combining AI-driven protein structure prediction with statistical learning, our work provides a powerful new approach for discovering metamorphic proteins and deepens our understanding of their role in their molecular function.
- Abstract(参考訳): AlphaFold2のアミノ酸配列からのタンパク質構造の正確な原子レベル予測における顕著な成功は、タンパク質の折り畳み問題へのアプローチを変えている。
しかし、1つの配列を1つの構造にマッピングするというコアパラダイムは、1つの安定なコンフォメーションを持つ1つの折りたたみタンパク質にのみ適している。
複数の異なるコンフォメーションを採用できるメタモルフィックタンパク質は、AlphaFold2によって適切にモデル化できないコンフォメーション多様性を有する。
したがって、あるタンパク質が変成的か単回かを分類することは、実験と計算の方法の両方にとって重要な課題である。
そこで我々は,AlphaFold2を再利用して,複数配列アライメントサンプリング法によりコンフォメーションアンサンブルを生成する新しい分類フレームワークを開発した。
これらのアンサンブルから、コンフォメーションアンサンブルのモジュラリティと構造的分散を特徴付ける包括的特徴集合を抽出する。
既知の変成タンパク質と1つの折りたたみタンパク質の詳細なベンチマークデータセットに基づいて訓練されたランダム森林分類器は、クロスバリデーションによる平均AUC 0.869を達成し、我々の統合アプローチの有効性を実証する。
さらに,タンパク質データバンクからランダムに採取された600個のタンパク質に分類器を応用することにより,40Sリボソームタンパク質S30を含むいくつかの変成タンパク質候補が同定された。
AIによるタンパク質構造予測と統計的学習を組み合わせることで、我々の研究は、変成タンパク質を発見し、分子機能におけるその役割の理解を深めるための強力な新しいアプローチを提供する。
関連論文リスト
- SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - PSC-CPI: Multi-Scale Protein Sequence-Structure Contrasting for
Efficient and Generalizable Compound-Protein Interaction Prediction [63.50967073653953]
化合物-タンパク質相互作用予測は、合理的な薬物発見のための化合物-タンパク質相互作用のパターンと強度を予測することを目的としている。
既存のディープラーニングベースの手法では、タンパク質配列や構造が単一のモダリティしか利用していない。
CPI予測のためのマルチスケールタンパク質配列構造コントラストフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-13T03:51:10Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Pairing interacting protein sequences using masked language modeling [0.3222802562733787]
配列アライメントに基づいて訓練されたタンパク質言語モデルを用いて相互作用するタンパク質配列をペア化する手法を開発した。
我々は、MSAトランスフォーマーが、周囲のコンテキストを用いて複数の配列アライメントでマスクされたアミノ酸を埋める能力を利用する。
単一チェーンデータでトレーニングされている間に、チェーン間の共進化をキャプチャできることが示されています。
論文 参考訳(メタデータ) (2023-08-14T13:42:09Z) - Multi-level Protein Representation Learning for Blind Mutational Effect
Prediction [5.207307163958806]
本稿では,タンパク質構造解析のためのシーケンシャルおよび幾何学的アナライザをカスケードする,新しい事前学習フレームワークを提案する。
野生型タンパク質の自然選択をシミュレートすることにより、所望の形質に対する突然変異方向を誘導する。
提案手法は,多種多様な効果予測タスクに対して,パブリックデータベースと2つの新しいデータベースを用いて評価する。
論文 参考訳(メタデータ) (2023-06-08T03:00:50Z) - On the Robustness of AlphaFold: A COVID-19 Case Study [16.564151738086434]
高い精度にもかかわらず、AlphaFoldはそのような堅牢性を示していないことを実証する。
これにより、予測されたタンパク質構造が信頼される範囲を検知し定量化することが困難になる。
論文 参考訳(メタデータ) (2023-01-10T17:31:39Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。