論文の概要: PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86
Million Molecules using B3LYP/6-31G* calculations
- arxiv url: http://arxiv.org/abs/2305.18454v1
- Date: Mon, 29 May 2023 04:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:43:39.600853
- Title: PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86
Million Molecules using B3LYP/6-31G* calculations
- Title(参考訳): PubChemQC B3LYP/6-31G*//PM6データセット:B3LYP/6-31G*計算を用いた86万分子の電子構造
- Authors: Maho Nakata and Toshiyuki Maeda
- Abstract要約: このデータセットは、必須化合物から最大1000分子までの幅広い分子を含んでいる。
電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。
データセットはCreative Commonsライセンスで利用できる。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This article presents the "PubChemQC B3LYP/6-31G*//PM6" dataset, containing
electronic properties of 85,938,443 molecules. It includes orbitals, orbital
energies, total energies, dipole moments, and other relevant properties. The
dataset encompasses a wide range of molecules, from essential compounds to
biomolecules up to 1000 molecular weight, covering 94.0% of the original
PubChem Compound catalog (as of August 29, 2016). The electronic properties
were calculated using the B3LYP/6-31G* and PM6 methods. The dataset is
available in three formats: (i) GAMESS quantum chemistry program files, (ii)
selected JSON output files, and (iii) a PostgreSQL database, enabling
researchers to query molecular properties. Five sub-datasets offer more
specific data. The first two subsets include molecules with C, H, O, and N,
under 300 and 500 molecular weight respectively. The third and fourth subsets
contain C, H, N, O, P, S, F, and Cl, under 300 and 500 molecular weight
respectively. The fifth subset includes C, H, N, O, P, S, F, Cl, Na, K, Mg, and
Ca, under 500 molecular weight. Coefficients of determination ranged from 0.892
(CHON500) to 0.803 (whole) for the HOMO-LUMO energy gap. These findings
represent extensive investigations and can be utilized for drug discovery,
material science, and other applications. The datasets are available under the
Creative Commons Attribution 4.0 International license at
https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html.
- Abstract(参考訳): 本稿では85,938,443分子の電子的性質を含む「PubChemQC B3LYP/6-31G*//PM6」データセットについて述べる。
軌道、軌道エネルギー、全エネルギー、双極子モーメント、その他の関連する性質を含む。
このデータセットは必須化合物から分子量1000までの幅広い分子を包含しており、オリジナルのpubchem化合物カタログの94.0%をカバーしている(2016年8月29日現在)。
電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。
データセットには3つのフォーマットがある。
(i) 量子化学プログラムファイルのゲーム。
(ii)選択したJSON出力ファイル、
(iii)PostgreSQLデータベースで、研究者が分子特性をクエリできる。
5つのサブデータセットは、より具体的なデータを提供する。
最初の2つのサブセットは、それぞれ300と500の分子量以下のC、H、O、Nの分子を含む。
第3および第4サブセットは、それぞれ300と500の分子量以下のC、H、N、O、P、S、F、Clを含む。
5番目のサブセットは、500分子量以下のC、H、N、O、P、S、F、Cl、Na、K、Mg、Caを含む。
決定係数はHOMO-LUMOエネルギーギャップに対して0.892 (CHON500) から0.803 (全体) まで変化した。
これらの発見は広範な調査であり、薬物の発見、物質科学、その他の応用に利用できる。
データセットはCreative Commons Attribution 4.0 International License at https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.htmlで公開されている。
関連論文リスト
- Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識をマルチモーダル命令チューニングによって把握する大規模な分子言語モデルである。
分子の特徴の理解を深めるために,異なる分子エンコーダの相補的な情報を統合するモジュールを導入する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - QMe14S, A Comprehensive and Efficient Spectral Dataset for Small Organic Molecules [10.076287990554901]
14元素を含む186,102個の有機分子からなるQMe14Sデータセットを紹介する。
我々は、エネルギー、原子電荷、原子間力、双極子モーメント、四極子モーメント、偏光性、オクタポールモーメント、第1超分極性、ヘッセンなどの計算特性を最適化した。
我々は、QMe14Sでトレーニングされたモデルは、分子スペクトルのシミュレーションにおいて、以前に開発されたQM9Sデータセットでトレーニングされたモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-01-31T04:12:53Z) - M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery [23.60901496004578]
本稿では2000万以上の分子を含む大規模マルチモーダル分子データセットであるM$3$-20Mを紹介する。
AI駆動のドラッグデザインと発見をサポートするように設計されている。
論文 参考訳(メタデータ) (2024-12-08T03:43:07Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - Functional-Group-Based Diffusion for Pocket-Specific Molecule Generation and Elaboration [63.23362798102195]
ポケット特異的分子生成とエラボレーションのための機能群に基づく拡散モデルD3FGを提案する。
D3FGは分子を、剛体として定義される官能基と質量点としてのリンカーの2つのカテゴリに分解する。
実験では, より現実的な3次元構造, タンパク質標的に対する競合親和性, 薬物特性の良好な分子を生成できる。
論文 参考訳(メタデータ) (2023-05-30T06:41:20Z) - Materials Discovery with Extreme Properties via Reinforcement Learning-Guided Combinatorial Chemistry [0.23301643766310373]
ルールベースの分子デザイナは、その後の分子フラグメントを選択してターゲット分子を得るための訓練されたポリシーによって駆動される。
極端に標的となる7つの性質にぶつかる分子の発見を目的とした実験で、我々のモデルはターゲットを隠蔽する分子の1,315個を発見した。
分子断片の結合規則の下で生成される全ての分子が100%化学的に有効であることが確認されている。
論文 参考訳(メタデータ) (2023-03-21T13:21:43Z) - DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding [51.970607704953096]
従来の研究は通常、原子の要素タイプと3次元座標を1つずつ生成する自己回帰的な方法で原子を生成する。
現実世界の分子系では、分子全体の原子間の相互作用が大域的であり、原子間のエネルギー関数が結合する。
本研究では、標的タンパク質に基づく分子3次元構造の生成拡散モデルを構築し、非自己回帰的に全原子レベルで構築する。
論文 参考訳(メタデータ) (2022-11-21T07:02:15Z) - Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design [82.23006955069229]
分子リンカ設計のためのE(3)等価な3次元拡散モデルDiffLinkerを提案する。
我々のモデルは、欠落した原子を中間に配置し、初期フラグメントを全て組み込んだ分子を設計する。
DiffLinkerは、より多種多様な合成可能な分子を生成する標準データセット上で、他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T09:13:37Z) - SPICE, A Dataset of Drug-like Molecules and Peptides for Training
Machine Learning Potentials [1.7044177326714558]
SPICEデータセットは、タンパク質と相互作用する薬物のような小さな分子のシミュレーションに関連するポテンシャルをトレーニングするための新しい量子化学データセットである。
この構造は、小さな分子、二量体、ジペプチド、および溶存アミノ酸の様々な集合に対する1100万以上のコンフォメーションを含んでいる。
15個の元素、荷電および非荷電分子、および幅広い共有結合および非共有結合相互作用を含む。
機械学習のポテンシャルのセットをトレーニングし、化学空間の広い領域にわたって化学的精度を達成できることを実証する。
論文 参考訳(メタデータ) (2022-09-21T23:02:59Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - GEOM: Energy-annotated molecular conformations for property prediction
and molecular generation [0.0]
我々は、高度サンプリングと半経験的密度汎関数理論を用いて、45万以上の分子に対して3700万の分子配座を生成する。
データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
論文 参考訳(メタデータ) (2020-06-09T22:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。