論文の概要: Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity
Prediction
- arxiv url: http://arxiv.org/abs/2306.04886v2
- Date: Wed, 20 Dec 2023 11:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 21:56:54.455835
- Title: Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity
Prediction
- Title(参考訳): タンパク質-リガンド結合親和性予測のためのマルチタスクバイオアッセイ事前トレーニング
- Authors: Jiaxian Yan, Zhaofeng Ye, Ziyi Yang, Chengqiang Lu, Shengyu Zhang, Qi
Liu, Jiezhong Qiu
- Abstract要約: 構造に基づくPLBA予測のための事前学習フレームワークであるMBP(Multi-task Bioassay Pre-training)を提案する。
MBPは、様々なノイズのあるラベルを持つ新しいChEMBL-Dockデータセットから、堅牢で伝達可能な構造知識を学習する。
- 参考スコア(独自算出の注目度): 26.530876904939163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein-ligand binding affinity (PLBA) prediction is the fundamental task in
drug discovery. Recently, various deep learning-based models predict binding
affinity by incorporating the three-dimensional structure of protein-ligand
complexes as input and achieving astounding progress. However, due to the
scarcity of high-quality training data, the generalization ability of current
models is still limited. In addition, different bioassays use varying affinity
measurement labels (i.e., IC50, Ki, Kd), and different experimental conditions
inevitably introduce systematic noise, which poses a significant challenge to
constructing high-precision affinity prediction models. To address these
issues, we (1) propose Multi-task Bioassay Pre-training (MBP), a pre-training
framework for structure-based PLBA prediction; (2) construct a pre-training
dataset called ChEMBL-Dock with more than 300k experimentally measured affinity
labels and about 2.8M docked three-dimensional structures. By introducing
multi-task pre-training to treat the prediction of different affinity labels as
different tasks and classifying relative rankings between samples from the same
bioassay, MBP learns robust and transferrable structural knowledge from our new
ChEMBL-Dock dataset with varied and noisy labels. Experiments substantiate the
capability of MBP as a general framework that can improve and be tailored to
mainstream structure-based PLBA prediction tasks. To the best of our knowledge,
MBP is the first affinity pre-training model and shows great potential for
future development.
- Abstract(参考訳): タンパク質リガンド結合親和性(PLBA)予測は薬物発見の基本的な課題である。
近年,タンパク質-リガンド複合体の3次元構造を入力として組み込んで結合親和性を予測し,驚くべき進歩を達成している。
しかし、高品質なトレーニングデータの不足により、現在のモデルの一般化能力はまだ限られている。
さらに、異なるバイオアッセイは様々なアフィニティ測定ラベル(IC50、Ki、Kd)を使用し、様々な実験条件が必然的にシステマティックノイズを導入し、高精度なアフィニティ予測モデルを構築する上で大きな課題となる。
これらの問題に対処するために,(1)構造ベースplba予測のための事前学習フレームワークであるマルチタスクバイオアッセイプレトレーニング(mbp)を提案し,(2)300k以上の実験的アフィニティラベルと約2.8mのドッキングドッキング構造を持つchembl-dockと呼ばれる事前学習データセットを構築した。
異なる親和性ラベルの予測を異なるタスクとして扱うためにマルチタスク事前学習を導入し、同じバイオアッセイからサンプル間の相対ランキングを分類することで、mbpは、変動ラベルとノイズラベルを持つ新しいchembl-dockデータセットから堅牢で転送可能な構造知識を学習する。
実験は、主流構造に基づくPLBA予測タスクの改善と調整が可能な一般的なフレームワークとしてのMBPの能力を裏付けるものである。
我々の知る限り、MBPは最初の親和性事前学習モデルであり、将来の発展に大きな可能性を示している。
関連論文リスト
- Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - Equivariant Pretrained Transformer for Unified Geometric Learning on
Multi-Domain 3D Molecules [23.189608074493997]
Equivariant Pretrained Transformer (EPT)は、小さな分子やタンパク質の幾何学的学習を調和させるために設計された新しい事前学習フレームワークである。
EPTは、各原子のより広い文脈に到達できるブロック強化表現を通じて、多ドメイン分子の幾何学的モデリングを統一する。
EPTのもう1つの重要な革新はブロックレベルの事前訓練であり、小さな分子とタンパク質からなるデータセットで共同で事前訓練することができる。
論文 参考訳(メタデータ) (2024-02-20T04:40:00Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Role of Structural and Conformational Diversity for Machine Learning
Potentials [4.608732256350959]
量子力学におけるデータバイアスとモデル一般化の関係について検討する。
この結果から,一般化指標の微妙なパターンが明らかになった。
これらの知見は、QMデータ生成のための貴重な洞察とガイドラインを提供する。
論文 参考訳(メタデータ) (2023-10-30T19:33:12Z) - MELEP: A Novel Predictive Measure of Transferability in Multi-Label ECG
Analysis [1.534667887016089]
本稿では,事前学習したモデルから,複数ラベル設定の下流タスクへの知識伝達がいかに効果的であるかを推定する新しい尺度であるMELEPを紹介する。
我々は,多ラベルECG分類問題に対するそのような伝達可能性指標を最初に開発した。
論文 参考訳(メタデータ) (2023-10-27T14:57:10Z) - ProFSA: Self-supervised Pocket Pretraining via Protein
Fragment-Surroundings Alignment [20.012210194899605]
本稿では,高分解能原子タンパク質構造からの知識を活用したポケット事前学習手法を提案する。
ProFSAと命名された本手法は,ポケットの薬剤性予測など,様々なタスクにおける最先端性能を実現する。
我々の研究は、高品質で多様なタンパク質構造データベースを活用することにより、タンパク質-リガンド複合体データの不足を軽減するための新たな道を開く。
論文 参考訳(メタデータ) (2023-10-11T06:36:23Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Explainable Deep Relational Networks for Predicting Compound-Protein
Affinities and Contacts [80.69440684790925]
Deep Relationsは物理にインスパイアされた、本質的に説明可能なアーキテクチャを持つディープリレーショナルネットワークである。
それは最先端技術に対する優れた解釈可能性を示している。
接触予測 9.5, 16.9, 19.3, 5.7 倍の AUPRC をテスト用、複合ユニク、タンパク質ユニク、両ユニクセットで強化する。
論文 参考訳(メタデータ) (2019-12-29T00:14:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。