論文の概要: EDBench: Large-Scale Electron Density Data for Molecular Modeling
- arxiv url: http://arxiv.org/abs/2505.09262v1
- Date: Wed, 14 May 2025 10:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.417683
- Title: EDBench: Large-Scale Electron Density Data for Molecular Modeling
- Title(参考訳): EDBench:分子モデリングのための大規模電子密度データ
- Authors: Hongxin Xiang, Ke Li, Mingquan Liu, Zhixiang Cheng, Bin Yao, Wenjie Du, Jun Xia, Li Zeng, Xin Jin, Xiangxiang Zeng,
- Abstract要約: 電子密度(ED)$rho(r)$は、対話型多粒子系のすべての基底状態特性を決定する。
EDBenchは、電子規模の学習ベースの研究を促進するために設計されたEDの大規模で高品質なデータセットである。
- 参考スコア(独自算出の注目度): 19.93035885065626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing molecular machine learning force fields (MLFFs) generally focus on the learning of atoms, molecules, and simple quantum chemical properties (such as energy and force), but ignore the importance of electron density (ED) $\rho(r)$ in accurately understanding molecular force fields (MFFs). ED describes the probability of finding electrons at specific locations around atoms or molecules, which uniquely determines all ground state properties (such as energy, molecular structure, etc.) of interactive multi-particle systems according to the Hohenberg-Kohn theorem. However, the calculation of ED relies on the time-consuming first-principles density functional theory (DFT) which leads to the lack of large-scale ED data and limits its application in MLFFs. In this paper, we introduce EDBench, a large-scale, high-quality dataset of ED designed to advance learning-based research at the electronic scale. Built upon the PCQM4Mv2, EDBench provides accurate ED data, covering 3.3 million molecules. To comprehensively evaluate the ability of models to understand and utilize electronic information, we design a suite of ED-centric benchmark tasks spanning prediction, retrieval, and generation. Our evaluation on several state-of-the-art methods demonstrates that learning from EDBench is not only feasible but also achieves high accuracy. Moreover, we show that learning-based method can efficiently calculate ED with comparable precision while significantly reducing the computational cost relative to traditional DFT calculations. All data and benchmarks from EDBench will be freely available, laying a robust foundation for ED-driven drug discovery and materials science.
- Abstract(参考訳): 既存の分子機械学習力場(MLFF)は一般に原子、分子、および単純な量子化学特性(エネルギーや力など)の学習に焦点を当てるが、分子力場(MFF)を正確に理解する上で電子密度(ED)$\rho(r)$の重要性は無視する。
EDは、ホヘンベルク・コーンの定理に従って、相互作用多粒子系のすべての基底状態特性(エネルギー、分子構造など)を一意に決定する原子や分子の特定の位置で電子を見つける確率を記述している。
しかし、EDの計算は、大規模EDデータの欠如とMLFFでの応用の制限につながる、時間を要する第一原理密度汎関数理論(DFT)に依存している。
本稿では,大規模かつ高品質なEDデータセットであるEDBenchについて紹介する。
PCQM4Mv2上に構築され、EDBenchは正確なEDデータを提供し、330万の分子をカバーしている。
電子情報を理解し,活用するモデルの能力を包括的に評価するために,予測,検索,生成にまたがるED中心のベンチマークタスクスイートを設計する。
EDBenchからの学習は実現可能であるだけでなく,精度も高いことを示す。
さらに,学習に基づく手法は,従来のDFT計算と比較して計算コストを大幅に削減しつつ,同等の精度で効率よくEDを計算することができることを示す。
EDBenchのすべてのデータとベンチマークは無料で提供され、ED駆動の薬物発見と材料科学のための堅牢な基盤となる。
関連論文リスト
- Ensemble Knowledge Distillation for Machine Learning Interatomic Potentials [34.82692226532414]
機械学習原子間ポテンシャル(MLIP)は、原子論シミュレーションと分子特性予測を加速するための有望なツールである。
MLIPの品質は、利用可能なトレーニングデータの量と、そのデータを生成するのに使用される量子化学(QC)レベルの理論に依存する。
本研究では,エネルギーのみのデータセットに学習した際のMLIP精度を向上させるために,アンサンブル知識蒸留(EKD)法を提案する。
論文 参考訳(メタデータ) (2025-03-18T14:32:51Z) - Multi-task learning for molecular electronic structure approaching coupled-cluster accuracy [9.81014501502049]
金標準CCSD(T)計算をトレーニングデータとして,有機分子の電子構造を統一した機械学習手法を開発した。
炭化水素分子を用いたモデルでは, 計算コストと様々な量子化学特性の予測精度において, 広範に用いられているハイブリッド関数と二重ハイブリッド関数でDFTより優れていた。
論文 参考訳(メタデータ) (2024-05-09T19:51:27Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - Electronic-structure properties from atom-centered predictions of the
electron density [0.0]
分子や物質の電子密度は、最近機械学習モデルのターゲット量として大きな注目を集めている。
最適化された高度にスパースな特徴空間における回帰問題の損失関数を最小化するための勾配に基づく手法を提案する。
予測密度から1つのコーン・シャム対角化ステップを実行し、0.1mV/原子の誤差を持つ全エネルギー成分にアクセス可能であることを示す。
論文 参考訳(メタデータ) (2022-06-28T15:35:55Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。