論文の概要: PSBench: a large-scale benchmark for estimating the accuracy of protein complex structural models
- arxiv url: http://arxiv.org/abs/2505.22674v1
- Date: Tue, 13 May 2025 17:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-01 23:16:01.473425
- Title: PSBench: a large-scale benchmark for estimating the accuracy of protein complex structural models
- Title(参考訳): PSBench:タンパク質複合体構造モデルの精度を推定するための大規模ベンチマーク
- Authors: Pawan Neupane, Jian Liu, Jianlin Cheng,
- Abstract要約: タンパク質複合体構造を予測することは、タンパク質の機能解析、タンパク質設計、薬物発見に不可欠である。
PSBenchは4つの大規模ラベル付きデータセットからなるベンチマークスイートである。
PSBenchには、幅広いタンパク質配列の長さ、複雑な確率論、機能クラス、モデリング困難を含む100万以上の構造モデルが含まれている。
- 参考スコア(独自算出の注目度): 4.657340016396915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting protein complex structures is essential for protein function analysis, protein design, and drug discovery. While AI methods like AlphaFold can predict accurate structural models for many protein complexes, reliably estimating the quality of these predicted models (estimation of model accuracy, or EMA) for model ranking and selection remains a major challenge. A key barrier to developing effective machine learning-based EMA methods is the lack of large, diverse, and well-annotated datasets for training and evaluation. To address this gap, we introduce PSBench, a benchmark suite comprising four large-scale, labeled datasets generated during the 15th and 16th community-wide Critical Assessment of Protein Structure Prediction (CASP15 and CASP16). PSBench includes over one million structural models covering a wide range of protein sequence lengths, complex stoichiometries, functional classes, and modeling difficulties. Each model is annotated with multiple complementary quality scores at the global, local, and interface levels. PSBench also provides multiple evaluation metrics and baseline EMA methods to facilitate rigorous comparisons. To demonstrate PSBench's utility, we trained and evaluated GATE, a graph transformer-based EMA method, on the CASP15 data. GATE was blindly tested in CASP16 (2024), where it ranked among the top-performing EMA methods. These results highlight PSBench as a valuable resource for advancing EMA research in protein complex modeling. PSBench is publicly available at: https://github.com/BioinfoMachineLearning/PSBench.
- Abstract(参考訳): タンパク質複合体構造を予測することは、タンパク質の機能解析、タンパク質設計、薬物発見に不可欠である。
AlphaFoldのようなAI手法は、多くのタンパク質複合体の正確な構造モデルを予測できるが、モデルランキングと選択のための予測されたモデルの品質(モデル精度の推定、EMA)を確実に推定することは、依然として大きな課題である。
効果的な機械学習ベースのEMA手法を開発する上で重要な障壁は、トレーニングと評価のための大規模で多様な、そして十分に注釈付けされたデータセットの欠如である。
このギャップに対処するため,我々は,第15および第16回コミュニティ全体で発生した大規模ラベル付きデータセット(CASP15とCASP16)からなるベンチマークスイートであるPSBenchを紹介する。
PSBenchには、幅広いタンパク質配列の長さ、複雑な確率論、機能クラス、モデリング困難を含む100万以上の構造モデルが含まれている。
各モデルは、グローバル、ローカル、およびインターフェースレベルで複数の補完的な品質スコアで注釈付けされる。
PSBenchはまた、厳密な比較を容易にするために、複数の評価指標とベースラインEMAメソッドも提供している。
グラフ変換器を用いたEMA法であるGATEをCASP15データに基づいて学習・評価した。
GATE は CASP16 (2024) で盲目的にテストされ、EMA メソッドの上位にランクインした。
これらの結果は、タンパク質複合体モデリングにおけるEMA研究を進めるための貴重な資源としてPSBenchが注目されている。
PSBenchは、https://github.com/BioinfoMachineLearning/PSBenchで公開されている。
関連論文リスト
- Beyond Simple Concatenation: Fairly Assessing PLM Architectures for Multi-Chain Protein-Protein Interactions Prediction [0.2509487459755192]
タンパク質とタンパク質の相互作用 (PPIs) は、多くの細胞プロセスの基礎である。
PLMはタンパク質の構造と機能を予測するのに顕著な成功を収めた。
シークエンスベースのPPI結合親和性予測への応用は、いまだに未検討である。
論文 参考訳(メタデータ) (2025-05-26T14:23:08Z) - An All-Atom Generative Model for Designing Protein Complexes [49.09672038729524]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。
原子レベルの情報を統合し、多鎖タンパク質のデータを活用することで、APMは鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
論文 参考訳(メタデータ) (2025-04-17T16:37:41Z) - Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。
ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。
そこで本研究では,選択的構造化状態空間モデルに基づく代替タンパク質であるBiMamba-Sに基づくLC-PLMを提案する。
論文 参考訳(メタデータ) (2024-10-29T16:43:28Z) - ProteinBench: A Holistic Evaluation of Protein Foundation Models [53.59325047872512]
本稿では,タンパク質基盤モデルのための総合評価フレームワークであるProteinBenchを紹介する。
本研究のアプローチは, タンパク質ドメインにおける課題を包括的に包括するタスクの分類学的分類, (ii) 品質, 新規性, 多様性, 堅牢性, および (iii) 様々なユーザ目標から詳細な分析を行い, モデルパフォーマンスの全体的視点を提供する,4つの重要な側面にわたるパフォーマンスを評価するマルチメトリック評価アプローチからなる。
論文 参考訳(メタデータ) (2024-09-10T06:52:33Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - ProFSA: Self-supervised Pocket Pretraining via Protein
Fragment-Surroundings Alignment [20.012210194899605]
本稿では,高分解能原子タンパク質構造からの知識を活用したポケット事前学習手法を提案する。
ProFSAと命名された本手法は,ポケットの薬剤性予測など,様々なタスクにおける最先端性能を実現する。
我々の研究は、高品質で多様なタンパク質構造データベースを活用することにより、タンパク質-リガンド複合体データの不足を軽減するための新たな道を開く。
論文 参考訳(メタデータ) (2023-10-11T06:36:23Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。