論文の概要: PatchProt: Hydrophobic patch prediction using protein foundation models
- arxiv url: http://arxiv.org/abs/2405.15928v1
- Date: Fri, 24 May 2024 20:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:58:51.357325
- Title: PatchProt: Hydrophobic patch prediction using protein foundation models
- Title(参考訳): PatchProt:タンパク質基盤モデルを用いた疎水性パッチ予測
- Authors: Dea Gogishvili, Emmanuel Minois-Genin, Jan van Eck, Sanne Abeln,
- Abstract要約: タンパク質表面上の疎水性パッチは、タンパク質-タンパク質とタンパク質-リガンド相互作用において重要な機能的役割を担っている。
微調整基礎モデルは、新しいタスクの特定のニュアンスにモデルを適応させることができる。
マルチタスクのディープラーニングは、データギャップに対処するための有望なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hydrophobic patches on protein surfaces play important functional roles in protein-protein and protein-ligand interactions. Large hydrophobic surfaces are also involved in the progression of aggregation diseases. Predicting exposed hydrophobic patches from a protein sequence has been shown to be a difficult task. Fine-tuning foundation models allows for adapting a model to the specific nuances of a new task using a much smaller dataset. Additionally, multi-task deep learning offers a promising solution for addressing data gaps, simultaneously outperforming single-task methods. In this study, we harnessed a recently released leading large language model ESM-2. Efficient fine-tuning of ESM-2 was achieved by leveraging a recently developed parameter-efficient fine-tuning method. This approach enabled comprehensive training of model layers without excessive parameters and without the need to include a computationally expensive multiple sequence analysis. We explored several related tasks, at local (residue) and global (protein) levels, to improve the representation of the model. As a result, our fine-tuned ESM-2 model, PatchProt, cannot only predict hydrophobic patch areas but also outperforms existing methods at predicting primary tasks, including secondary structure and surface accessibility predictions. Importantly, our analysis shows that including related local tasks can improve predictions on more difficult global tasks. This research sets a new standard for sequence-based protein property prediction and highlights the remarkable potential of fine-tuning foundation models enriching the model representation by training over related tasks.
- Abstract(参考訳): タンパク質表面上の疎水性パッチは、タンパク質-タンパク質とタンパク質-リガンド相互作用において重要な機能的役割を担っている。
大規模な疎水性表面も凝集病の進行に関与している。
タンパク質配列からの疎水性パッチの露出を予測することは難しい課題であることが示されている。
ファインチューニング基盤モデルは、はるかに小さなデータセットを使用して、新しいタスクの特定のニュアンスにモデルを適応することができる。
さらに、マルチタスクのディープラーニングは、データのギャップに対処する上で有望なソリューションであり、同時にシングルタスクメソッドよりも優れています。
本研究では,最近リリースされた主要な言語モデルESM-2を利用した。
ESM-2の効率的な微調整は、最近開発されたパラメータ効率の良い微調整法を利用して達成された。
このアプローチにより、過剰なパラメータを伴わず、計算コストのかかる多重シーケンス分析を含まない、包括的なモデルレイヤのトレーニングが可能になった。
そこで我々は, モデル表現を改善するために, 局所的(残留) と大域的(タンパク質) のレベルでいくつかの関連タスクを探索した。
その結果、細調整されたESM-2モデルであるPatchProtは、疎水性パッチ領域の予測だけでなく、二次構造や表面アクセシビリティ予測など、既存の手法よりも優れていることがわかった。
重要なことは、我々の分析は、関連するローカルタスクを含めることで、より困難なグローバルタスクの予測を改善することができることを示している。
本研究は、配列に基づくタンパク質特性予測の新しい標準を設定し、関連するタスクのトレーニングによってモデル表現を豊かにする微調整基盤モデルの顕著な可能性を強調する。
関連論文リスト
- SeqProFT: Applying LoRA Finetuning for Sequence-only Protein Property Predictions [8.112057136324431]
本研究では,ESM-2モデルのエンド・ツー・エンドの微調整を行うためにLoRA法を用いる。
下流ネットワークにマルチヘッドアテンション機構を統合して、シーケンス特徴とコンタクトマップ情報を組み合わせる。
論文 参考訳(メタデータ) (2024-11-18T12:40:39Z) - SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。
アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。
大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-10-31T15:22:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - PROflow: An iterative refinement model for PROTAC-induced structure prediction [4.113597666007784]
キメラを標的とするプロテオリシス (PROTACs) は、標的と分解関連タンパク質を同時に結合することで、従来のアンドラッグタンパク質の分解を引き起こす小さな分子である。
合理的設計における重要な課題は、活動の構造的基盤を理解することである。
既存の PROTAC ドッキング法では, 距離制限されたタンパク質-タンパク質ドッキングタスクに問題を単純化することを余儀なくされている。
二元タンパク質-タンパク質複合体のみを必要とする新しい擬似データ生成手法を開発した。
この新たなデータセットは、制約下での完全なPROTACの柔軟性をモデル化する、PROTACによる構造予測の反復的改善モデルであるPROflowを実現する。
論文 参考訳(メタデータ) (2024-04-10T05:29:35Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - PIGNet2: A Versatile Deep Learning-based Protein-Ligand Interaction
Prediction Model for Binding Affinity Scoring and Virtual Screening [0.0]
タンパク質-リガンド相互作用の予測(PLI)は、薬物発見において重要な役割を果たす。
結合親和性を正確に評価し、効率的な仮想スクリーニングを行う汎用モデルの開発は依然として課題である。
本稿では、物理インフォームドグラフニューラルネットワークと組み合わせて、新しいデータ拡張戦略を導入することにより、実現可能なソリューションを提案する。
論文 参考訳(メタデータ) (2023-07-03T14:46:49Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - MAS2HP: A Multi Agent System to predict protein structure in 2D HP model [0.0]
本稿では,2次元疎水性-親水性モデルにおけるエージェント・ベース・モデリング(ABM)を用いたタンパク質構造予測の新しい手法を提案する。
我々はこのアルゴリズムを2次元疎水性-親水性格子モデルにおいて20-50メルのベンチマークシーケンスで検証した。
論文 参考訳(メタデータ) (2022-05-11T05:17:47Z) - When in Doubt: Neural Non-Parametric Uncertainty Quantification for
Epidemic Forecasting [70.54920804222031]
既存の予測モデルは不確実な定量化を無視し、誤校正予測をもたらす。
不確実性を考慮した時系列予測のためのディープニューラルネットワークの最近の研究にもいくつかの制限がある。
本稿では,予測タスクを確率的生成過程としてモデル化し,EPIFNPと呼ばれる機能的ニューラルプロセスモデルを提案する。
論文 参考訳(メタデータ) (2021-06-07T18:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。