論文の概要: Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity
Prediction
- arxiv url: http://arxiv.org/abs/2306.04886v1
- Date: Thu, 8 Jun 2023 02:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:43:43.556641
- Title: Multi-task Bioassay Pre-training for Protein-ligand Binding Affinity
Prediction
- Title(参考訳): タンパク質-リガンド結合親和性予測のためのマルチタスクバイオアッセイ事前トレーニング
- Authors: Jiaxian Yan, Zhaofeng Ye, Ziyi Yang, Chengqiang Lu, Shengyu Zhang, Qi
Liu, Jiezhong Qiu
- Abstract要約: 構造に基づくPLBA予測のための事前学習フレームワークであるMBP(Multi-task Bioassay Pre-training)を提案する。
MBPは、様々なノイズのあるラベルを持つ新しいChEMBL-Dockデータセットから、堅牢で伝達可能な構造知識を学習する。
- 参考スコア(独自算出の注目度): 30.75830692875971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protein-ligand binding affinity (PLBA) prediction is the fundamental task in
drug discovery. Recently, various deep learning-based models predict binding
affinity by incorporating the three-dimensional structure of protein-ligand
complexes as input and achieving astounding progress. However, due to the
scarcity of high-quality training data, the generalization ability of current
models is still limited. In addition, different bioassays use varying affinity
measurement labels (i.e., IC50, Ki, Kd), and different experimental conditions
inevitably introduce systematic noise, which poses a significant challenge to
constructing high-precision affinity prediction models. To address these
issues, we (1) propose Multi-task Bioassay Pre-training (MBP), a pre-training
framework for structure-based PLBA prediction; (2) construct a pre-training
dataset called ChEMBL-Dock with more than 300k experimentally measured affinity
labels and about 2.8M docked three-dimensional structures. By introducing
multi-task pre-training to treat the prediction of different affinity labels as
different tasks and classifying relative rankings between samples from the same
bioassay, MBP learns robust and transferrable structural knowledge from our new
ChEMBL-Dock dataset with varied and noisy labels. Experiments substantiate the
capability of MBP as a general framework that can improve and be tailored to
mainstream structure-based PLBA prediction tasks. To the best of our knowledge,
MBP is the first affinity pre-training model and shows great potential for
future development.
- Abstract(参考訳): タンパク質リガンド結合親和性(PLBA)予測は薬物発見の基本的な課題である。
近年,タンパク質-リガンド複合体の3次元構造を入力として組み込んで結合親和性を予測し,驚くべき進歩を達成している。
しかし、高品質なトレーニングデータの不足により、現在のモデルの一般化能力はまだ限られている。
さらに、異なるバイオアッセイは様々なアフィニティ測定ラベル(IC50、Ki、Kd)を使用し、様々な実験条件が必然的にシステマティックノイズを導入し、高精度なアフィニティ予測モデルを構築する上で大きな課題となる。
これらの問題に対処するために,(1)構造ベースplba予測のための事前学習フレームワークであるマルチタスクバイオアッセイプレトレーニング(mbp)を提案し,(2)300k以上の実験的アフィニティラベルと約2.8mのドッキングドッキング構造を持つchembl-dockと呼ばれる事前学習データセットを構築した。
異なる親和性ラベルの予測を異なるタスクとして扱うためにマルチタスク事前学習を導入し、同じバイオアッセイからサンプル間の相対ランキングを分類することで、mbpは、変動ラベルとノイズラベルを持つ新しいchembl-dockデータセットから堅牢で転送可能な構造知識を学習する。
実験は、主流構造に基づくPLBA予測タスクの改善と調整が可能な一般的なフレームワークとしてのMBPの能力を裏付けるものである。
我々の知る限り、MBPは最初の親和性事前学習モデルであり、将来の発展に大きな可能性を示している。
関連論文リスト
- Autoregressive Enzyme Function Prediction with Multi-scale Multi-modality Fusion [11.278610817877578]
MAPredは、タンパク質のEC数を自動回帰予測するために設計された、新しいマルチモダリティおよびマルチスケールモデルである。
MAPredは、タンパク質の一次アミノ酸配列と3Dトークンの両方を統合し、包括的なタンパク質の特徴を捉えるために二重経路アプローチを用いる。
New-392、Price、New-815を含むベンチマークデータセットの評価は、我々の手法が既存のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-11T08:28:43Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL [1.840390797252648]
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
タンパク質複合体中のアミノ酸置換物からの結合親和性変化を予測するための新しいグラフニューラルネットワークアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
論文 参考訳(メタデータ) (2024-05-03T10:33:19Z) - Equivariant Pretrained Transformer for Unified Geometric Learning on
Multi-Domain 3D Molecules [23.189608074493997]
Equivariant Pretrained Transformer (EPT)は、小さな分子やタンパク質の幾何学的学習を調和させるために設計された新しい事前学習フレームワークである。
EPTは、各原子のより広い文脈に到達できるブロック強化表現を通じて、多ドメイン分子の幾何学的モデリングを統一する。
EPTのもう1つの重要な革新はブロックレベルの事前訓練であり、小さな分子とタンパク質からなるデータセットで共同で事前訓練することができる。
論文 参考訳(メタデータ) (2024-02-20T04:40:00Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Progressive Multi-Modality Learning for Inverse Protein Folding [47.095862120116976]
マルチモーダルトランスファー学習を利用するMMDesignと呼ばれる新しいタンパク質設計パラダイムを提案する。
MMDesignは、事前訓練された構造モジュールと事前訓練されたコンテキストモジュールを組み合わせる最初のフレームワークである。
実験結果は、小さなデータセットでのみトレーニングした結果、MMDesignが様々な公開ベンチマークのベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-12-11T10:59:23Z) - Pre-Training on Large-Scale Generated Docking Conformations with HelixDock to Unlock the Potential of Protein-ligand Structure Prediction Models [42.16524616409125]
本研究では,大規模ドッキングコンフォーメーションの事前学習により,優れた性能を有するタンパク質リガンド構造予測モデルが得られることを示す。
提案モデルであるHelixDockは,物理ベースのドッキングツールによってカプセル化された物理知識を,事前学習期間中に取得することを目的としている。
論文 参考訳(メタデータ) (2023-10-21T05:54:26Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。