論文の概要: PDBench: Evaluating Computational Methods for Protein Sequence Design
- arxiv url: http://arxiv.org/abs/2109.07925v1
- Date: Thu, 16 Sep 2021 12:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 20:45:08.971786
- Title: PDBench: Evaluating Computational Methods for Protein Sequence Design
- Title(参考訳): PDBench:タンパク質配列設計のための計算手法の評価
- Authors: Leonardo V. Castorina, Rokas Petrenas, Katric Subr and Christopher W.
Wood
- Abstract要約: 本稿では, タンパク質のベンチマークを行い, 深層学習法の性能評価試験を提案する。
我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Proteins perform critical processes in all living systems: converting solar
energy into chemical energy, replicating DNA, as the basis of highly performant
materials, sensing and much more. While an incredible range of functionality
has been sampled in nature, it accounts for a tiny fraction of the possible
protein universe. If we could tap into this pool of unexplored protein
structures, we could search for novel proteins with useful properties that we
could apply to tackle the environmental and medical challenges facing humanity.
This is the purpose of protein design.
Sequence design is an important aspect of protein design, and many successful
methods to do this have been developed. Recently, deep-learning methods that
frame it as a classification problem have emerged as a powerful approach.
Beyond their reported improvement in performance, their primary advantage over
physics-based methods is that the computational burden is shifted from the user
to the developers, thereby increasing accessibility to the design method.
Despite this trend, the tools for assessment and comparison of such models
remain quite generic. The goal of this paper is to both address the timely
problem of evaluation and to shine a spotlight, within the Machine Learning
community, on specific assessment criteria that will accelerate impact.
We present a carefully curated benchmark set of proteins and propose a number
of standard tests to assess the performance of deep learning based methods. Our
robust benchmark provides biological insight into the behaviour of design
methods, which is essential for evaluating their performance and utility. We
compare five existing models with two novel models for sequence prediction.
Finally, we test the designs produced by these models with AlphaFold2, a
state-of-the-art structure-prediction algorithm, to determine if they are
likely to fold into the intended 3D shapes.
- Abstract(参考訳): タンパク質は、太陽エネルギーを化学エネルギーに変換し、DNAを複製し、高性能な材料、センシングなど、あらゆる生物系において重要なプロセスを実行する。
さまざまな機能が自然界でサンプル化されていますが、タンパク質宇宙のごく一部を占めています。
もしこの未探索のタンパク質構造プールを利用することができたら、人類が直面する環境や医療上の課題に取り組むために応用できる有用な性質を持つ新しいタンパク質を探すことができる。
これがタンパク質設計の目的である。
配列設計はタンパク質設計の重要な側面であり、これを実現する多くの方法が開発されている。
近年,分類問題としてのディープラーニング手法が強力なアプローチとして登場している。
報告された性能の改善に加えて、物理ベースの手法に対する大きな利点は、計算負担がユーザから開発者へとシフトし、設計方法へのアクセシビリティが向上することである。
この傾向にもかかわらず、これらのモデルの評価と比較のためのツールは非常に一般的である。
本稿の目的は,評価のタイムリーな問題に対処することと,その影響を加速する具体的な評価基準について,機械学習コミュニティ内でスポットライトを当てることである。
そこで本研究では, 深層学習に基づく手法の性能評価のための, 厳密なベンチマークセットを提案する。
我々の堅牢なベンチマークは、その性能と実用性を評価するのに欠かせない設計手法の振る舞いに関する生物学的知見を提供する。
既存の5つのモデルと2つの新しいモデルを比較した。
最後に,これらのモデルによって生成される設計を,最先端構造予測アルゴリズムであるAlphaFold2を用いて検証し,それらが意図した3次元形状に折り畳まれるかどうかを判断する。
関連論文リスト
- ProteinBench: A Holistic Evaluation of Protein Foundation Models [53.59325047872512]
本稿では,タンパク質基盤モデルのための総合評価フレームワークであるProteinBenchを紹介する。
本研究のアプローチは, タンパク質ドメインにおける課題を包括的に包括するタスクの分類学的分類, (ii) 品質, 新規性, 多様性, 堅牢性, および (iii) 様々なユーザ目標から詳細な分析を行い, モデルパフォーマンスの全体的視点を提供する,4つの重要な側面にわたるパフォーマンスを評価するマルチメトリック評価アプローチからなる。
論文 参考訳(メタデータ) (2024-09-10T06:52:33Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - PDB-Struct: A Comprehensive Benchmark for Structure-based Protein Design [19.324059406159325]
我々は、リフォールダビリティベースのメトリクスと安定性ベースのメトリクスの2つの新しい指標を紹介した。
ByProt、ProteinMPNN、ESM-IFはベンチマークで非常によく機能しますが、ESM-DesignとAF-Designは不足しています。
提案するベンチマークは,タンパク質設計手法の公平かつ包括的な評価方法である。
論文 参考訳(メタデータ) (2023-11-30T02:37:55Z) - Protein Sequence Design with Batch Bayesian Optimisation [0.0]
タンパク質配列設計は、有用な生物学的機能を持つ新規タンパク質の発見を目的とした、タンパク質工学における挑戦的な問題である。
有向進化は、実験室環境における進化のサイクルを模倣し、反復的プロトコルを実行する、タンパク質配列設計のための広く使われているアプローチである。
本稿では,タンパク質配列設計のための最適化手法であるBatch Bayesian Optimization (Batch BO) に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T14:53:20Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Deep Learning Methods for Protein Family Classification on PDB
Sequencing Data [0.0]
本稿では,新たな双方向LSTMや畳み込みモデルなどのディープラーニングフレームワークの性能を,広く利用可能なシークエンシングデータ上で実証し比較する。
我々のディープラーニングモデルは従来の機械学習手法よりも優れた性能を示し、畳み込みアーキテクチャは最も印象的な推論性能を提供する。
論文 参考訳(メタデータ) (2022-07-14T06:11:32Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Protein Representation Learning by Geometric Structure Pretraining [27.723095456631906]
既存のアプローチは通常、多くの未ラベルアミノ酸配列で事前訓練されたタンパク質言語モデルである。
まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。
関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2022-03-11T17:52:13Z) - Protein model quality assessment using rotation-equivariant,
hierarchical neural networks [8.373439916313018]
本稿では,タンパク質モデルの品質を評価するための新しい深層学習手法を提案する。
提案手法は,最近のCASPラウンドに投入されたタンパク質モデルを評価することによって,最先端の成果を得る。
論文 参考訳(メタデータ) (2020-11-27T05:03:53Z) - Energy-based models for atomic-resolution protein conformations [88.68597850243138]
原子スケールで動作するタンパク質コンホメーションのエネルギーモデル(EBM)を提案する。
このモデルは、結晶化されたタンパク質のデータにのみ訓練されている。
モデル出力と隠された表現の研究により、タンパク質エネルギーに関連する物理化学的性質を捉えることが判明した。
論文 参考訳(メタデータ) (2020-04-27T20:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。