論文の概要: Targeting SARS-CoV-2 with AI- and HPC-enabled Lead Generation: A First
Data Release
- arxiv url: http://arxiv.org/abs/2006.02431v1
- Date: Thu, 28 May 2020 01:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 04:52:04.358920
- Title: Targeting SARS-CoV-2 with AI- and HPC-enabled Lead Generation: A First
Data Release
- Title(参考訳): AIおよびHPC対応リードジェネレーションによるSARS-CoV-2のターゲット:最初のデータリリース
- Authors: Yadu Babuji, Ben Blaiszik, Tom Brettin, Kyle Chard, Ryan Chard, Austin
Clyde, Ian Foster, Zhi Hong, Shantenu Jha, Zhuozhao Li, Xuefeng Liu, Arvind
Ramanathan, Yi Ren, Nicholaus Saint, Marcus Schwarting, Rick Stevens,
Hubertus van Dam, Rick Wagner
- Abstract要約: このデータリリースは、4.2B分子と60TBの事前計算データの構造情報を含んでいる。
有望なアプローチのひとつは、機械学習(ML)と人工知能(AI)ツールをトレーニングして、多数の小さな分子をスクリーニングすることだ。
今後のリリースでは、より詳細な分子シミュレーションや計算モデル、その他の製品を含むように、データを拡大する予定である。
- 参考スコア(独自算出の注目度): 8.090016327163564
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Researchers across the globe are seeking to rapidly repurpose existing drugs
or discover new drugs to counter the the novel coronavirus disease (COVID-19)
caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). One
promising approach is to train machine learning (ML) and artificial
intelligence (AI) tools to screen large numbers of small molecules. As a
contribution to that effort, we are aggregating numerous small molecules from a
variety of sources, using high-performance computing (HPC) to computer diverse
properties of those molecules, using the computed properties to train ML/AI
models, and then using the resulting models for screening. In this first data
release, we make available 23 datasets collected from community sources
representing over 4.2 B molecules enriched with pre-computed: 1) molecular
fingerprints to aid similarity searches, 2) 2D images of molecules to enable
exploration and application of image-based deep learning methods, and 3) 2D and
3D molecular descriptors to speed development of machine learning models. This
data release encompasses structural information on the 4.2 B molecules and 60
TB of pre-computed data. Future releases will expand the data to include more
detailed molecular simulations, computed models, and other products.
- Abstract(参考訳): 世界中の研究者が、急性呼吸器症候群(SARS-CoV-2)による新型コロナウイルス(COVID-19)対策として、既存の薬物の迅速な再利用や新薬の発見を目指している。
有望なアプローチのひとつは、機械学習(ML)と人工知能(AI)ツールをトレーニングして、多数の小さな分子をスクリーニングすることだ。
この取り組みへの貢献として、我々は、ハイパフォーマンスコンピューティング(HPC)を用いて、それらの分子の様々な特性をコンピュータで計算し、計算された特性を使ってML/AIモデルを訓練し、その結果のモデルをスクリーニングするために、様々なソースから多数の小さな分子を集約しています。
この最初のデータリリースでは、事前計算された4.2b以上の分子を表現したコミュニティソースから収集した23のデータセットを利用可能にする。
1)類似性検索を支援する分子指紋。
2)画像に基づく深層学習法の探索と応用を可能にする分子の2次元画像と
3)機械学習モデルの開発を高速化する2次元および3次元分子記述子。
このデータは4.2b分子と60tbの計算済みデータの構造情報を包含する。
将来のリリースでは、より詳細な分子シミュレーション、計算モデル、その他の製品を含むようにデータを拡大する予定である。
関連論文リスト
- Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - TwinBooster: Synergising Large Language Models with Barlow Twins and
Gradient Boosting for Enhanced Molecular Property Prediction [0.0]
本研究では, 微調整された大規模言語モデルを用いて, テキスト情報に基づく生物学的アッセイを統合する。
このアーキテクチャは、測定情報と分子指紋の両方を使用して、真の分子情報を抽出する。
TwinBoosterは最先端のゼロショット学習タスクを提供することで、目に見えないバイオアッセイや分子の性質の予測を可能にする。
論文 参考訳(メタデータ) (2024-01-09T10:36:20Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - 3D Graph Contrastive Learning for Molecular Property Prediction [1.0152838128195467]
自己教師付き学習(英: Self-supervised learning, SSL)は、データ固有の監督を利用してデータ表現を学習する手法である。
分子特性予測のための新しいコントラスト学習フレームワーク,小型3次元グラフコントラスト学習(3DGCL)を提案する。
論文 参考訳(メタデータ) (2022-05-31T04:45:31Z) - MoleHD: Ultra-Low-Cost Drug Discovery using Hyperdimensional Computing [2.7462881838152913]
分子特性予測のための脳誘発超次元計算(HDC)に基づくMoleHDを提案する。
MoleHDは、ランダムスプリットとスキャフォールドスプリットで、平均3つのデータセットでROC-AUCスコアを達成している。
私たちの知る限りでは、この方法が初めてHDCベースの薬物発見法である。
論文 参考訳(メタデータ) (2021-06-05T13:33:21Z) - Molecular machine learning with conformer ensembles [0.0]
ChemPropやSchnetなどの主要なアーキテクチャに拡張された複数のディープラーニングモデルを紹介します。
次に、これらのモデルの性能トレードオフを2D、3D、4D表現で評価し、薬物活動の予測を行う。
新しいアーキテクチャは2Dモデルよりも大幅にパフォーマンスが向上するが、その性能は多くの場合、多くのモデルと同様、単一のコンフォーマを持つ。
論文 参考訳(メタデータ) (2020-12-15T17:44:48Z) - Advanced Graph and Sequence Neural Networks for Molecular Property
Prediction and Drug Discovery [53.00288162642151]
計算モデルや分子表現にまたがる包括的な機械学習ツール群であるMoleculeKitを開発した。
これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。
オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。
論文 参考訳(メタデータ) (2020-12-02T02:09:31Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。