論文の概要: GEOM: Energy-annotated molecular conformations for property prediction
and molecular generation
- arxiv url: http://arxiv.org/abs/2006.05531v4
- Date: Wed, 9 Feb 2022 23:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:47:35.471747
- Title: GEOM: Energy-annotated molecular conformations for property prediction
and molecular generation
- Title(参考訳): GEOM:プロパティ予測と分子生成のためのエネルギーアノテート分子構造
- Authors: Simon Axelrod, Rafael Gomez-Bombarelli
- Abstract要約: 我々は、高度サンプリングと半経験的密度汎関数理論を用いて、45万以上の分子に対して3700万の分子配座を生成する。
データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) outperforms traditional approaches in many molecular
design tasks. ML models usually predict molecular properties from a 2D chemical
graph or a single 3D structure, but neither of these representations accounts
for the ensemble of 3D conformers that are accessible to a molecule. Property
prediction could be improved by using conformer ensembles as input, but there
is no large-scale dataset that contains graphs annotated with accurate
conformers and experimental data. Here we use advanced sampling and
semi-empirical density functional theory (DFT) to generate 37 million molecular
conformations for over 450,000 molecules. The Geometric Ensemble Of Molecules
(GEOM) dataset contains conformers for 133,000 species from QM9, and 317,000
species with experimental data related to biophysics, physiology, and physical
chemistry. Ensembles of 1,511 species with BACE-1 inhibition data are also
labeled with high-quality DFT free energies in an implicit water solvent, and
534 ensembles are further optimized with DFT. GEOM will assist in the
development of models that predict properties from conformer ensembles, and
generative models that sample 3D conformations.
- Abstract(参考訳): 機械学習(ml)は多くの分子設計タスクで従来のアプローチを上回っている。
MLモデルは通常、2Dケミカルグラフや1つの3D構造から分子特性を予測するが、どちらの表現も分子にアクセスできる3Dコンフォメータの集合を考慮していない。
コンバータアンサンブルを入力として使用することで特性予測を改善することができるが、正確なコンバータと実験データを含むグラフを含む大規模データセットは存在しない。
ここでは,高度サンプリングと半経験的密度汎関数理論(dft)を用いて,45万以上の分子に対して3700万の分子コンフォメーションを生成する。
Geometric Ensemble Of Molecules (GEOM)データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
BACE-1阻害データを持つ1,511種のアンサンブルは、暗黙の水溶媒中で高品質なDFT自由エネルギーでラベル付けされ、534個のアンサンブルはさらにDFTで最適化されている。
GEOMは、コンフォーマーアンサンブルから特性を予測するモデルや、3Dコンフォーメーションをサンプリングする生成モデルの開発を支援する。
関連論文リスト
- QMe14S, A Comprehensive and Efficient Spectral Dataset for Small Organic Molecules [10.076287990554901]
14元素を含む186,102個の有機分子からなるQMe14Sデータセットを紹介する。
我々は、エネルギー、原子電荷、原子間力、双極子モーメント、四極子モーメント、偏光性、オクタポールモーメント、第1超分極性、ヘッセンなどの計算特性を最適化した。
我々は、QMe14Sでトレーニングされたモデルは、分子スペクトルのシミュレーションにおいて、以前に開発されたQM9Sデータセットでトレーニングされたモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-01-31T04:12:53Z) - M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery [23.60901496004578]
本稿では2000万以上の分子を含む大規模マルチモーダル分子データセットであるM$3$-20Mを紹介する。
AI駆動のドラッグデザインと発見をサポートするように設計されている。
論文 参考訳(メタデータ) (2024-12-08T03:43:07Z) - BAPULM: Binding Affinity Prediction using Language Models [7.136205674624813]
本稿では,ProtT5-XL-U50およびMollFormerを介してタンパク質の化学潜伏表現を利用する,革新的な配列ベースフレームワークであるBAPULMを紹介する。
提案手法は,ベンチマーク1k2101, Test2016_290, CSAR-HiQ_36でそれぞれ0.925 $pm$0.043, 0.914 $pm$0.004, 0.8132 $pm$0.0001のシーケンシャルスコアリングパワー(R)値を達成した。
論文 参考訳(メタデータ) (2024-11-06T04:35:30Z) - Pre-training of Molecular GNNs via Conditional Boltzmann Generator [0.0]
分子配座のデータセットを用いた分子GNNの事前学習法を提案する。
本モデルは,既存の事前学習法よりも分子特性の予測性能がよいことを示す。
論文 参考訳(メタデータ) (2023-12-20T15:30:15Z) - Automated 3D Pre-Training for Molecular Property Prediction [54.15788181794094]
新たな3D事前学習フレームワーク(3D PGT)を提案する。
3D分子グラフのモデルを事前訓練し、3D構造のない分子グラフに微調整する。
提案した3次元PGTの精度, 効率, 一般化能力を示すために, 2次元分子グラフの大規模実験を行った。
論文 参考訳(メタデータ) (2023-06-13T14:43:13Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - An Equivariant Generative Framework for Molecular Graph-Structure
Co-Design [54.92529253182004]
分子グラフ構造アンダーラインCo設計のための機械学習ベースの生成フレームワークであるMollCodeを提案する。
MolCodeでは、3D幾何情報によって分子2Dグラフの生成が促進され、それによって分子3D構造の予測が導かれる。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-04-12T13:34:22Z) - Geometry-Complete Diffusion for 3D Molecule Generation and Optimization [3.8366697175402225]
3次元分子生成のための幾何-完全拡散モデル(GCDM)を導入する。
GCDMは、既存の3次元分子拡散モデルよりも条件および非条件設定間で大きなマージンで優れている。
また、GCDMの幾何学的特徴は、既存の3次元分子の幾何学的および化学組成を一貫して最適化するために再利用可能であることも示している。
論文 参考訳(メタデータ) (2023-02-08T20:01:51Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Molecular Geometry-aware Transformer for accurate 3D Atomic System
modeling [51.83761266429285]
本稿では,ノード(原子)とエッジ(結合と非結合の原子対)を入力とし,それらの相互作用をモデル化するトランスフォーマーアーキテクチャを提案する。
MoleformerはOC20の緩和エネルギー予測の初期状態の最先端を実現し、QM9では量子化学特性の予測に非常に競争力がある。
論文 参考訳(メタデータ) (2023-02-02T03:49:57Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。