Fugu-MT 論文翻訳(概要): PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G* calculations

論文の概要: PubChemQC B3LYP/6-31G//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G calculations

arxiv url: http://arxiv.org/abs/2305.18454v1
Date: Mon, 29 May 2023 04:14:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 20:43:39.600853
Title: PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G* calculations
Title（参考訳）: PubChemQC B3LYP/6-31G*//PM6データセット:B3LYP/6-31G*計算を用いた86万分子の電子構造
Authors: Maho Nakata and Toshiyuki Maeda
Abstract要約: このデータセットは、必須化合物から最大1000分子までの幅広い分子を含んでいる。電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。データセットはCreative Commonsライセンスで利用できる。
参考スコア（独自算出の注目度）: 1.14219428942199
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This article presents the "PubChemQC B3LYP/6-31G*//PM6" dataset, containing electronic properties of 85,938,443 molecules. It includes orbitals, orbital energies, total energies, dipole moments, and other relevant properties. The dataset encompasses a wide range of molecules, from essential compounds to biomolecules up to 1000 molecular weight, covering 94.0% of the original PubChem Compound catalog (as of August 29, 2016). The electronic properties were calculated using the B3LYP/6-31G* and PM6 methods. The dataset is available in three formats: (i) GAMESS quantum chemistry program files, (ii) selected JSON output files, and (iii) a PostgreSQL database, enabling researchers to query molecular properties. Five sub-datasets offer more specific data. The first two subsets include molecules with C, H, O, and N, under 300 and 500 molecular weight respectively. The third and fourth subsets contain C, H, N, O, P, S, F, and Cl, under 300 and 500 molecular weight respectively. The fifth subset includes C, H, N, O, P, S, F, Cl, Na, K, Mg, and Ca, under 500 molecular weight. Coefficients of determination ranged from 0.892 (CHON500) to 0.803 (whole) for the HOMO-LUMO energy gap. These findings represent extensive investigations and can be utilized for drug discovery, material science, and other applications. The datasets are available under the Creative Commons Attribution 4.0 International license at https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.html.
Abstract（参考訳）: 本稿では85,938,443分子の電子的性質を含む「PubChemQC B3LYP/6-31G*//PM6」データセットについて述べる。軌道、軌道エネルギー、全エネルギー、双極子モーメント、その他の関連する性質を含む。このデータセットは必須化合物から分子量1000までの幅広い分子を包含しており、オリジナルのpubchem化合物カタログの94.0%をカバーしている(2016年8月29日現在)。電子特性はB3LYP/6-31G*法とPM6法を用いて計算した。データセットには3つのフォーマットがある。 (i) 量子化学プログラムファイルのゲーム。 (ii)選択したJSON出力ファイル、 (iii)PostgreSQLデータベースで、研究者が分子特性をクエリできる。 5つのサブデータセットは、より具体的なデータを提供する。最初の2つのサブセットは、それぞれ300と500の分子量以下のC、H、O、Nの分子を含む。第3および第4サブセットは、それぞれ300と500の分子量以下のC、H、N、O、P、S、F、Clを含む。 5番目のサブセットは、500分子量以下のC、H、N、O、P、S、F、Cl、Na、K、Mg、Caを含む。決定係数はHOMO-LUMOエネルギーギャップに対して0.892 (CHON500) から0.803 (全体) まで変化した。これらの発見は広範な調査であり、薬物の発見、物質科学、その他の応用に利用できる。データセットはCreative Commons Attribution 4.0 International License at https://nakatamaho.riken.jp/pubchemqc.riken.jp/b3lyp_pm6_datasets.htmlで公開されている。

関連論文リスト

Electron-Informed Coarse-Graining Molecular Representation Learning for Real-World Molecular Physics [20.865893351903072]
本稿では,電子インフォームド分子表現を余分なコストで学習する手法を提案する。提案手法は、広範囲なベンチマークデータセットに対して最先端の予測精度を達成した。
論文参考訳（メタデータ） (2026-02-06T08:48:10Z)
KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge [73.51130155601824]
KnowMol-100Kは100Kの微細な分子アノテーションを持つ大規模データセットである。また,既存の分子表現戦略の限界に効果的に対処する,化学的に不変な分子表現も提案する。 KnowMolは、分子理解および生成タスク間で優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-10-22T11:23:58Z)
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。異なる分子エンコーダの相補的な情報を統合するモジュールを導入する。実験の結果,Moll-LLaMAは分子の一般的な特徴を理解することができることがわかった。
論文参考訳（メタデータ） (2025-02-19T05:49:10Z)
QMe14S, A Comprehensive and Efficient Spectral Dataset for Small Organic Molecules [10.076287990554901]
14元素を含む186,102個の有機分子からなるQMe14Sデータセットを紹介する。我々は、エネルギー、原子電荷、原子間力、双極子モーメント、四極子モーメント、偏光性、オクタポールモーメント、第1超分極性、ヘッセンなどの計算特性を最適化した。我々は、QMe14Sでトレーニングされたモデルは、分子スペクトルのシミュレーションにおいて、以前に開発されたQM9Sデータセットでトレーニングされたモデルよりも優れていることを示した。
論文参考訳（メタデータ） (2025-01-31T04:12:53Z)
M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery [23.60901496004578]
M$3$-20Mは、既存の最大のデータセットの71倍の分子数である。このデータセットは、一次元SMILES、二次元分子グラフ、三次元分子構造、物理化学的性質、テキスト記述を統合している。
論文参考訳（メタデータ） (2024-12-08T03:43:07Z)
$\nabla^2$DFT: A Universal Quantum Chemistry Dataset of Drug-Like Molecules and a Benchmark for Neural Network Potentials [35.949502493236146]
この研究は、nablaDFTをベースにした$nabla2$DFTと呼ばれる新しいデータセットとベンチマークを提示している。分子構造の2倍、コンフォーメーションの3倍、新しいデータタイプとタスク、最先端のモデルを含んでいる。 $nabla2$DFTは、大量の薬物様分子の緩和軌道を含む最初のデータセットである。
論文参考訳（メタデータ） (2024-06-20T14:14:59Z)
STRIDE: Structure-guided Generation for Inverse Design of Molecules [0.24578723416255752]
$textbfSTRIDE$は、既知の分子によって誘導される無条件生成モデルを持つ新規分子を生成する生成分子ワークフローである。生成分子は、平均21.7%低い合成アクセシビリティスコアを持ち、生成分子の5.9%のイオン化ポテンシャルを誘導する。
論文参考訳（メタデータ） (2023-11-06T08:22:35Z)
QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文参考訳（メタデータ） (2023-06-15T23:39:07Z)
Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。 11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文参考訳（メタデータ） (2023-06-02T15:49:45Z)
Functional-Group-Based Diffusion for Pocket-Specific Molecule Generation and Elaboration [63.23362798102195]
ポケット特異的分子生成とエラボレーションのための機能群に基づく拡散モデルD3FGを提案する。 D3FGは分子を、剛体として定義される官能基と質量点としてのリンカーの2つのカテゴリに分解する。実験では, より現実的な3次元構造, タンパク質標的に対する競合親和性, 薬物特性の良好な分子を生成できる。
論文参考訳（メタデータ） (2023-05-30T06:41:20Z)
Materials Discovery with Extreme Properties via Reinforcement Learning-Guided Combinatorial Chemistry [0.23301643766310373]
ルールベースの分子デザイナは、その後の分子フラグメントを選択してターゲット分子を得るための訓練されたポリシーによって駆動される。極端に標的となる7つの性質にぶつかる分子の発見を目的とした実験で、我々のモデルはターゲットを隠蔽する分子の1,315個を発見した。分子断片の結合規則の下で生成される全ての分子が100%化学的に有効であることが確認されている。
論文参考訳（メタデータ） (2023-03-21T13:21:43Z)
DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding [51.970607704953096]
従来の研究は通常、原子の要素タイプと3次元座標を1つずつ生成する自己回帰的な方法で原子を生成する。現実世界の分子系では、分子全体の原子間の相互作用が大域的であり、原子間のエネルギー関数が結合する。本研究では、標的タンパク質に基づく分子3次元構造の生成拡散モデルを構築し、非自己回帰的に全原子レベルで構築する。
論文参考訳（メタデータ） (2022-11-21T07:02:15Z)
Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design [82.23006955069229]
分子リンカ設計のためのE(3)等価な3次元拡散モデルDiffLinkerを提案する。我々のモデルは、欠落した原子を中間に配置し、初期フラグメントを全て組み込んだ分子を設計する。 DiffLinkerは、より多種多様な合成可能な分子を生成する標準データセット上で、他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T09:13:37Z)
SPICE, A Dataset of Drug-like Molecules and Peptides for Training Machine Learning Potentials [1.7044177326714558]
SPICEデータセットは、タンパク質と相互作用する薬物のような小さな分子のシミュレーションに関連するポテンシャルをトレーニングするための新しい量子化学データセットである。この構造は、小さな分子、二量体、ジペプチド、および溶存アミノ酸の様々な集合に対する1100万以上のコンフォメーションを含んでいる。 15個の元素、荷電および非荷電分子、および幅広い共有結合および非共有結合相互作用を含む。機械学習のポテンシャルのセットをトレーニングし、化学空間の広い領域にわたって化学的精度を達成できることを実証する。
論文参考訳（メタデータ） (2022-09-21T23:02:59Z)
Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文参考訳（メタデータ） (2022-02-01T18:54:24Z)
Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文参考訳（メタデータ） (2021-09-21T00:08:43Z)
GEOM: Energy-annotated molecular conformations for property prediction and molecular generation [0.0]
我々は、高度サンプリングと半経験的密度汎関数理論を用いて、45万以上の分子に対して3700万の分子配座を生成する。データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
論文参考訳（メタデータ） (2020-06-09T22:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。

論文の概要: PubChemQC B3LYP/6-31G*//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G* calculations

関連論文リスト

論文の概要: PubChemQC B3LYP/6-31G//PM6 dataset: the Electronic Structures of 86 Million Molecules using B3LYP/6-31G calculations