論文の概要: Smiles2Dock: an open large-scale multi-task dataset for ML-based molecular docking
- arxiv url: http://arxiv.org/abs/2406.05738v1
- Date: Sun, 9 Jun 2024 11:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:17:07.631816
- Title: Smiles2Dock: an open large-scale multi-task dataset for ML-based molecular docking
- Title(参考訳): Smiles2Dock:MLに基づく分子ドッキングのための大規模マルチタスクオープンデータセット
- Authors: Thomas Le Menestrel, Manuel Rivas,
- Abstract要約: 分子ドッキングのための大規模マルチタスクデータセットであるSmiles2Dockを紹介する。
我々は、ChEMBLデータベースから15のAlphaFoldタンパク質に170万をドッキングし、2500万以上のタンパク質-リガンド結合スコアを与えました。
我々のデータセットとコードは、分子ドッキングのための新しいMLベースの手法の開発を支援するために公開されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Docking is a crucial component in drug discovery aimed at predicting the binding conformation and affinity between small molecules and target proteins. ML-based docking has recently emerged as a prominent approach, outpacing traditional methods like DOCK and AutoDock Vina in handling the growing scale and complexity of molecular libraries. However, the availability of comprehensive and user-friendly datasets for training and benchmarking ML-based docking algorithms remains limited. We introduce Smiles2Dock, an open large-scale multi-task dataset for molecular docking. We created a framework combining P2Rank and AutoDock Vina to dock 1.7 million ligands from the ChEMBL database against 15 AlphaFold proteins, giving us more than 25 million protein-ligand binding scores. The dataset leverages a wide range of high-accuracy AlphaFold protein models, encompasses a diverse set of biologically relevant compounds and enables researchers to benchmark all major approaches for ML-based docking such as Graph, Transformer and CNN-based methods. We also introduce a novel Transformer-based architecture for docking scores prediction and set it as an initial benchmark for our dataset. Our dataset and code are publicly available to support the development of novel ML-based methods for molecular docking to advance scientific research in this field.
- Abstract(参考訳): ドッキングは、小さな分子と標的タンパク質の結合コンホメーションと親和性を予測することを目的とした薬物発見において重要な要素である。
MLベースのドッキングは、最近顕著なアプローチとして現れ、分子ライブラリのスケールと複雑さの増大に対処する上で、DOCKやAutoDock Vinaといった従来の手法よりも優れている。
しかし、MLベースのドッキングアルゴリズムのトレーニングとベンチマークのために、包括的でユーザフレンドリなデータセットが利用可能であることは、依然として限られている。
分子ドッキングのための大規模マルチタスクデータセットであるSmiles2Dockを紹介する。
我々はP2RankとAutoDock Vinaを組み合わせて、ChEMBLデータベースから15のAlphaFoldタンパク質に170万のリガンドをドッキングし、2500万以上のタンパク質-リガンド結合スコアを与えました。
このデータセットは、幅広い精度のAlphaFoldタンパク質モデルを活用し、多様な生物学的関連化合物を包含し、研究者はGraph、Transformer、CNNベースのメソッドなどのMLベースのドッキングのための主要なアプローチをベンチマークすることができる。
また、スコア予測をドッキングするための新しいTransformerベースのアーキテクチャを導入し、データセットの初期ベンチマークとして設定する。
我々のデータセットとコードは、この分野での科学的研究を進めるために、分子ドッキングのための新しいMLベースの手法の開発を支援するために公開されています。
関連論文リスト
- GNNAS-Dock: Budget Aware Algorithm Selection with Graph Neural Networks for Molecular Docking [0.0]
本稿では,新しいグラフネットワーク(GNN)を用いた分子ドッキングのための自動アルゴリズム選択システムであるGNNASDockを紹介する。
GNNは、状況とタンパク質の両方の複雑な構造データを処理できる。
これらは、異なる条件下での様々なドッキングアルゴリズムの性能を予測するために、固有のグラフのような特性の恩恵を受ける。
論文 参考訳(メタデータ) (2024-11-19T16:01:54Z) - Dockformer: A transformer-based molecular docking paradigm for large-scale virtual screening [29.886873241333433]
複合ライブラリのサイズが大きくなるにつれて、従来のドッキングモデルの複雑さが増す。
ディープラーニングアルゴリズムは、ドッキングプロセスのスピードを高めるために、データ駆動リサーチと開発モデルを提供することができる。
本研究では,Dockformerという,ディープラーニングに基づくドッキング手法を紹介する。
論文 参考訳(メタデータ) (2024-11-11T06:25:13Z) - ETDock: A Novel Equivariant Transformer for Protein-Ligand Docking [36.14826783009814]
従来のドッキング法は、タンパク質と薬物のドッキングを予測するために、スコアリング機能とディープラーニングに依存している。
本稿では,タンパク質リガンドドッキングポーズ予測のためのトランスフォーマーニューラルネットワークを提案する。
実データを用いた実験結果から,本モデルが最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T06:23:12Z) - DiffDock-PP: Rigid Protein-Protein Docking with Diffusion Models [47.73386438748902]
DiffDock-PPは拡散生成モデルであり、非有界タンパク質構造をそれらの有界配座に翻訳し回転させる。
中央値C-RMSDが4.85でDIPSの最先端性能を達成し,すべてのベースラインを上回りました。
論文 参考訳(メタデータ) (2023-04-08T02:10:44Z) - Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。
これらのモデルをHuberRegressorでアンサンブルします。
これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文 参考訳(メタデータ) (2022-11-20T17:25:26Z) - Deep Surrogate Docking: Accelerating Automated Drug Discovery with Graph
Neural Networks [0.9785311158871759]
本稿では,ディープラーニングに基づくサロゲートモデリングを適用し,ドッキングプロセスを大幅に高速化するフレームワークであるDeep Surrogate Docking(DSD)を紹介する。
我々は、DSDワークフローとFiLMv2アーキテクチャを組み合わせることで、分子スクリーニングにおける9.496倍の高速化と3%のリコールエラー率が得られることを示した。
論文 参考訳(メタデータ) (2022-11-04T19:36:02Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - HelixFold-Single: MSA-free Protein Structure Prediction by Using Protein
Language Model as an Alternative [61.984700682903096]
HelixFold-Singleは、大規模なタンパク質言語モデルとAlphaFold2の優れた幾何学的学習能力を組み合わせるために提案されている。
提案手法は,数千万の一次配列を持つ大規模タンパク質言語モデルを事前学習する。
我々は、一次系列のみから原子の3次元座標を予測するために、エンドツーエンドの微分可能なモデルを得る。
論文 参考訳(メタデータ) (2022-07-28T07:30:33Z) - Direct Molecular Conformation Generation [217.4815525740703]
本稿では,原子の座標を直接予測する手法を提案する。
提案手法は,4つの公開ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-02-03T01:01:58Z) - DOCKSTRING: easy molecular docking yields better benchmarks for ligand
design [3.848364262836075]
本稿では、3つのコンポーネントからなる機械学習モデルの有意義かつ堅牢な比較のためのバンドルであるDOCKSTRINGを提案する。
Pythonパッケージはロバストなリガンドとターゲットの準備プロトコルを実装しており、非専門家が意味のあるドッキングスコアを得ることができる。
私たちのデータセットには、ドッキングのポーズと、フルマトリックスである最初のサイズが含まれています。
論文 参考訳(メタデータ) (2021-10-29T01:37:13Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。