論文の概要: PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86
Million Molecules using B3LYP/6-31G* calculations
- arxiv url: http://arxiv.org/abs/2305.18454v1
- Date: Mon, 29 May 2023 04:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:43:39.600853
- Title: PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86
Million Molecules using B3LYP/6-31G* calculations
- Title(参考訳): PubChemQC B3LYP/6-31G*//PM6データセット:B3LYP/6-31G*計算を用いた86万分子の電子構造
- Authors: Maho Nakata and Toshiyuki Maeda
- Abstract要約: このデータセットは、必須化合物から最大1000分子までの幅広い分子を含んでいる。
電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。
データセットはCreative Commonsライセンスで利用できる。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This article presents the "PubChemQC B3LYP/6-31G*//PM6" dataset, containing
electronic properties of 85,938,443 molecules. It includes orbitals, orbital
energies, total energies, dipole moments, and other relevant properties. The
dataset encompasses a wide range of molecules, from essential compounds to
biomolecules up to 1000 molecular weight, covering 94.0% of the original
PubChem Compound catalog (as of August 29, 2016). The electronic properties
were calculated using the B3LYP/6-31G* and PM6 methods. The dataset is
available in three formats: (i) GAMESS quantum chemistry program files, (ii)
selected JSON output files, and (iii) a PostgreSQL database, enabling
researchers to query molecular properties. Five sub-datasets offer more
specific data. The first two subsets include molecules with C, H, O, and N,
under 300 and 500 molecular weight respectively. The third and fourth subsets
contain C, H, N, O, P, S, F, and Cl, under 300 and 500 molecular weight
respectively. The fifth subset includes C, H, N, O, P, S, F, Cl, Na, K, Mg, and
Ca, under 500 molecular weight. Coefficients of determination ranged from 0.892
(CHON500) to 0.803 (whole) for the HOMO-LUMO energy gap. These findings
represent extensive investigations and can be utilized for drug discovery,
material science, and other applications. The datasets are available under the
Creative Commons Attribution 4.0 International license at
https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html.
- Abstract(参考訳): 本稿では85,938,443分子の電子的性質を含む「PubChemQC B3LYP/6-31G*//PM6」データセットについて述べる。
軌道、軌道エネルギー、全エネルギー、双極子モーメント、その他の関連する性質を含む。
このデータセットは必須化合物から分子量1000までの幅広い分子を包含しており、オリジナルのpubchem化合物カタログの94.0%をカバーしている(2016年8月29日現在)。
電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。
データセットには3つのフォーマットがある。
(i) 量子化学プログラムファイルのゲーム。
(ii)選択したJSON出力ファイル、
(iii)PostgreSQLデータベースで、研究者が分子特性をクエリできる。
5つのサブデータセットは、より具体的なデータを提供する。
最初の2つのサブセットは、それぞれ300と500の分子量以下のC、H、O、Nの分子を含む。
第3および第4サブセットは、それぞれ300と500の分子量以下のC、H、N、O、P、S、F、Clを含む。
5番目のサブセットは、500分子量以下のC、H、N、O、P、S、F、Cl、Na、K、Mg、Caを含む。
決定係数はHOMO-LUMOエネルギーギャップに対して0.892 (CHON500) から0.803 (全体) まで変化した。
これらの発見は広範な調査であり、薬物の発見、物質科学、その他の応用に利用できる。
データセットはCreative Commons Attribution 4.0 International License at https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.htmlで公開されている。
関連論文リスト
- $\nabla^2$DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials [35.949502493236146]
この研究は、nablaDFTをベースにした$nabla2$DFTと呼ばれる新しいデータセットとベンチマークを提示している。
分子構造の2倍、コンフォーメーションの3倍、新しいデータタイプとタスク、最先端のモデルを含んでいる。
$nabla2$DFTは、大量の薬物様分子の緩和軌道を含む最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-20T14:14:59Z) - STRIDE: Structure-guided Generation for Inverse Design of Molecules [0.24578723416255752]
$textbfSTRIDE$は、既知の分子によって誘導される無条件生成モデルを持つ新規分子を生成する生成分子ワークフローである。
生成分子は、平均21.7%低い合成アクセシビリティスコアを持ち、生成分子の5.9%のイオン化ポテンシャルを誘導する。
論文 参考訳(メタデータ) (2023-11-06T08:22:35Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Functional-Group-Based Diffusion for Pocket-Specific Molecule Generation and Elaboration [63.23362798102195]
ポケット特異的分子生成とエラボレーションのための機能群に基づく拡散モデルD3FGを提案する。
D3FGは分子を、剛体として定義される官能基と質量点としてのリンカーの2つのカテゴリに分解する。
実験では, より現実的な3次元構造, タンパク質標的に対する競合親和性, 薬物特性の良好な分子を生成できる。
論文 参考訳(メタデータ) (2023-05-30T06:41:20Z) - Materials Discovery with Extreme Properties via Reinforcement Learning-Guided Combinatorial Chemistry [0.23301643766310373]
ルールベースの分子デザイナは、その後の分子フラグメントを選択してターゲット分子を得るための訓練されたポリシーによって駆動される。
極端に標的となる7つの性質にぶつかる分子の発見を目的とした実験で、我々のモデルはターゲットを隠蔽する分子の1,315個を発見した。
分子断片の結合規則の下で生成される全ての分子が100%化学的に有効であることが確認されている。
論文 参考訳(メタデータ) (2023-03-21T13:21:43Z) - DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding [51.970607704953096]
従来の研究は通常、原子の要素タイプと3次元座標を1つずつ生成する自己回帰的な方法で原子を生成する。
現実世界の分子系では、分子全体の原子間の相互作用が大域的であり、原子間のエネルギー関数が結合する。
本研究では、標的タンパク質に基づく分子3次元構造の生成拡散モデルを構築し、非自己回帰的に全原子レベルで構築する。
論文 参考訳(メタデータ) (2022-11-21T07:02:15Z) - Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design [82.23006955069229]
分子リンカ設計のためのE(3)等価な3次元拡散モデルDiffLinkerを提案する。
我々のモデルは、欠落した原子を中間に配置し、初期フラグメントを全て組み込んだ分子を設計する。
DiffLinkerは、より多種多様な合成可能な分子を生成する標準データセット上で、他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T09:13:37Z) - SPICE, A Dataset of Drug-like Molecules and Peptides for Training
Machine Learning Potentials [1.7044177326714558]
SPICEデータセットは、タンパク質と相互作用する薬物のような小さな分子のシミュレーションに関連するポテンシャルをトレーニングするための新しい量子化学データセットである。
この構造は、小さな分子、二量体、ジペプチド、および溶存アミノ酸の様々な集合に対する1100万以上のコンフォメーションを含んでいる。
15個の元素、荷電および非荷電分子、および幅広い共有結合および非共有結合相互作用を含む。
機械学習のポテンシャルのセットをトレーニングし、化学空間の広い領域にわたって化学的精度を達成できることを実証する。
論文 参考訳(メタデータ) (2022-09-21T23:02:59Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - GEOM: Energy-annotated molecular conformations for property prediction
and molecular generation [0.0]
我々は、高度サンプリングと半経験的密度汎関数理論を用いて、45万以上の分子に対して3700万の分子配座を生成する。
データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
論文 参考訳(メタデータ) (2020-06-09T22:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。