論文の概要: PDB-Struct: A Comprehensive Benchmark for Structure-based Protein Design
- arxiv url: http://arxiv.org/abs/2312.00080v1
- Date: Thu, 30 Nov 2023 02:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:13:38.184220
- Title: PDB-Struct: A Comprehensive Benchmark for Structure-based Protein Design
- Title(参考訳): PDB-Struct:構造ベースタンパク質設計のための総合ベンチマーク
- Authors: Chuanrui Wang, Bozitao Zhong, Zuobai Zhang, Narendra Chaudhary,
Sanchit Misra, Jian Tang
- Abstract要約: 我々は、リフォールダビリティベースのメトリクスと安定性ベースのメトリクスの2つの新しい指標を紹介した。
ByProt、ProteinMPNN、ESM-IFはベンチマークで非常によく機能しますが、ESM-DesignとAF-Designは不足しています。
提案するベンチマークは,タンパク質設計手法の公平かつ包括的な評価方法である。
- 参考スコア(独自算出の注目度): 19.324059406159325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structure-based protein design has attracted increasing interest, with
numerous methods being introduced in recent years. However, a universally
accepted method for evaluation has not been established, since the wet-lab
validation can be overly time-consuming for the development of new algorithms,
and the $\textit{in silico}$ validation with recovery and perplexity metrics is
efficient but may not precisely reflect true foldability. To address this gap,
we introduce two novel metrics: refoldability-based metric, which leverages
high-accuracy protein structure prediction models as a proxy for wet lab
experiments, and stability-based metric, which assesses whether models can
assign high likelihoods to experimentally stable proteins. We curate datasets
from high-quality CATH protein data, high-throughput $\textit{de novo}$
designed proteins, and mega-scale experimental mutagenesis experiments, and in
doing so, present the $\textbf{PDB-Struct}$ benchmark that evaluates both
recent and previously uncompared protein design methods. Experimental results
indicate that ByProt, ProteinMPNN, and ESM-IF perform exceptionally well on our
benchmark, while ESM-Design and AF-Design fall short on the refoldability
metric. We also show that while some methods exhibit high sequence recovery,
they do not perform as well on our new benchmark. Our proposed benchmark paves
the way for a fair and comprehensive evaluation of protein design methods in
the future. Code is available at https://github.com/WANG-CR/PDB-Struct.
- Abstract(参考訳): 構造に基づくタンパク質の設計が注目され、近年多くの方法が導入されている。
しかし、新しいアルゴリズムの開発にはウェット・ラブ・バリデーションが過度に時間がかかるため、広く受け入れられている評価方法は確立されておらず、$\textit{in silico}$ validation with recovery and perplexity metricsは効率的であるが、真の折りたたみ可能性を正確に反映するものではない。
このギャップに対処するために,実験室実験のプロキシとして高精度なタンパク質構造予測モデルを利用するリフォールダビリティ・ベース・メトリックと,実験安定タンパク質に高い確率を付与できるかどうかを評価する安定性・ベース・メトリックの2つの新しい指標を導入する。
高品質のCATHタンパク質データ、高スループットの$\textit{de novo}$設計タンパク質、および大規模実験変異原性実験からデータセットをキュレートし、その際、最近のタンパク質設計法および未コンパイルタンパク質設計法の両方を評価する$\textbf{PDB-Struct}$ベンチマークを提示する。
実験の結果,ByProt,ProteinMPNN,ESM-IFはベンチマークで非常に良好に機能し,ESM-DesignとAF-Designは再現性測定値に劣っていることがわかった。
また、いくつかの手法は高いシーケンシャル回復を示すが、新しいベンチマークでは性能が良くないことを示す。
提案するベンチマークは将来,タンパク質設計手法の公平かつ包括的評価の道を開くものである。
コードはhttps://github.com/WANG-CR/PDB-Struct.comから入手できる。
関連論文リスト
- Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - MMDesign: Multi-Modality Transfer Learning for Generative Protein Design [66.49989188722553]
タンパク質の設計は、対応するタンパク質のバックボーンに基づいてタンパク質配列を生成する。
深層生成モデルは、データから直接タンパク質設計を学ぶことを約束している。
パブリックな構造系列ペアリングの欠如は、一般化能力を制限している。
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Protein 3D Graph Structure Learning for Robust Structure-based Protein
Property Prediction [43.46012602267272]
タンパク質の構造に基づく特性予測は、様々な生物学的タスクにおいて有望なアプローチとして現れてきた。
現在のプラクティスは、推論中に正確に予測された構造を用いるだけで、予測精度の顕著な低下に悩まされている。
本フレームワークはモデルに依存しず,予測構造と実験構造の両方の特性予測の改善に有効である。
論文 参考訳(メタデータ) (2023-10-14T08:43:42Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - PDBench: Evaluating Computational Methods for Protein Sequence Design [2.0187324832551385]
本稿では, タンパク質のベンチマークを行い, 深層学習法の性能評価試験を提案する。
我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。
論文 参考訳(メタデータ) (2021-09-16T12:20:03Z) - EBM-Fold: Fully-Differentiable Protein Folding Powered by Energy-based
Models [53.17320541056843]
本研究では,データ駆動型生成ネットワークを用いたタンパク質構造最適化手法を提案する。
EBM-Foldアプローチは,従来のロゼッタ構造最適化ルーチンと比較して,高品質なデコイを効率よく生成できる。
論文 参考訳(メタデータ) (2021-05-11T03:40:29Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。