論文の概要: QuantumChem-200K: A Large-Scale Open Organic Molecular Dataset for Quantum-Chemistry Property Screening and Language Model Benchmarking
- arxiv url: http://arxiv.org/abs/2511.21747v1
- Date: Sun, 23 Nov 2025 02:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.202464
- Title: QuantumChem-200K: A Large-Scale Open Organic Molecular Dataset for Quantum-Chemistry Property Screening and Language Model Benchmarking
- Title(参考訳): QuantumChem-200K: 量子化学特性スクリーニングと言語モデルベンチマークのための大規模オープン有機分子データセット
- Authors: Yinqi Zeng, Renjie Li,
- Abstract要約: 我々は、20万以上の有機分子からなる大規模データセットであるQuantumChem-200Kを紹介した。
これらの値は、密度関数理論(DFT)、半経験的励起状態法、原子論的量子解法、ニューラルネットワーク予測器を統合するハイブリッドワークフローを用いて計算される。
我々はQuantumChem-200Kを用いて、オープンソースのQwen2.5-32B大言語モデルを微調整し、SMILESからプロパティ予測を転送できる化学AIアシスタントを作成する。
- 参考スコア(独自算出の注目度): 1.18832001529231
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The discovery of next-generation photoinitiators for two-photon polymerization (TPP) is hindered by the absence of large, open datasets containing the quantum-chemical and photophysical properties required to model photodissociation and excited-state behavior. Existing molecular datasets typically provide only basic physicochemical descriptors and therefore cannot support data-driven screening or AI-assisted design of photoinitiators. To address this gap, we introduce QuantumChem-200K, a large-scale dataset of over 200,000 organic molecules annotated with eleven quantum-chemical properties, including two-photon absorption (TPA) cross sections, TPA spectral ranges, singlet-triplet intersystem crossing (ISC) energies, toxicity and synthetic accessibility scores, hydrophilicity, solubility, boiling point, molecular weight, and aromaticity. These values are computed using a hybrid workflow that integrates density function theory (DFT), semi-empirical excited-state methods, atomistic quantum solvers, and neural-network predictors. Using QuantumChem-200K, we fine tune the open-source Qwen2.5-32B large language model to create a chemistry AI assistant capable of forward property prediction from SMILES. Benchmarking on 3000 unseen molecules from VQM24 and ZINC20 demonstrates that domain-specific fine-tuning significantly improves accuracy over GPT-4o, Llama-3.1-70B, and the base Qwen2.5-32B model, particularly for TPA and ISC predictions central to photoinitiator design. QuantumChem-200K and the corresponding AI assistant together provide the first scalable platform for high-throughput, LLM-driven photoinitiator screening and accelerated discovery of photosensitive materials.
- Abstract(参考訳): 2光子重合(TPP)のための次世代光開始剤の発見は、光解離と励起状態の挙動をモデル化するために必要な量子化学的および光物理的特性を含む大きなオープンデータセットがないことによって妨げられる。
既存の分子データセットは通常、基本的な物理化学的記述子のみを提供するため、データ駆動スクリーニングやAIによる光開始器の設計をサポートできない。
このギャップに対処するためにQuantumChem-200Kは、20万以上の有機分子からなる大規模データセットで、11個の量子化学的性質を付加し、2光子吸収(TPA)断面積、TPAスペクトル範囲、一重項間交差(ISC)エネルギー、毒性と合成アクセシビリティスコア、親水性、溶解度、沸点、分子量、芳香族度を含む。
これらの値は、密度関数理論(DFT)、半経験的励起状態法、原子論的量子解法、ニューラルネットワーク予測器を統合するハイブリッドワークフローを用いて計算される。
我々はQuantumChem-200Kを用いて、オープンソースのQwen2.5-32B大言語モデルを微調整し、SMILESからプロパティ予測を転送できる化学AIアシスタントを作成する。
VQM24とZINC20の3000個の未確認分子のベンチマークでは、ドメイン固有の微調整がGPT-4o、Llama-3.1-70B、およびベースQwen2.5-32Bモデル(特にTPAとICCの予測)よりも精度を大幅に向上することが示された。
QuantumChem-200Kとそれに対応するAIアシスタントは、高スループットでLLM駆動の光開始剤スクリーニングのための最初のスケーラブルなプラットフォームを提供し、感光材料の発見を加速する。
関連論文リスト
- Quantum-centric machine learning for molecular dynamics [9.147935750042352]
ab initio法は、あらゆる核配置における電子状態の自己一貫性の最適化を必要とする。
量子中心機械学習(QCML)モデルを導入する。
トランスフォーマーを様々な分子のデータセットで事前訓練することにより、QCMLは分子記述子とPQCパラメータ間の転送可能なマッピングを学習する。
論文 参考訳(メタデータ) (2025-11-11T02:41:31Z) - Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Sample-based Quantum Diagonalization Methods for Modeling the Photochemistry of Diazirine and Diazo Compounds [0.0]
ジアジリンおよびジアゾ化合物は、カルベンを生成するための光反応性前駆体として広く用いられている。
本研究では, 代表的なジアジリン-ジアゾメタン系におけるカルベン生成の研究に, ハイブリッド量子古典ワークフローを利用する。
論文 参考訳(メタデータ) (2025-10-01T04:07:24Z) - Quantum-centric computation of molecular excited states with extended sample-based quantum diagonalization [0.0]
分子電子構造のシミュレーションは、量子デバイスの重要な応用である。
サンプルベース量子対角化(SQD)アルゴリズムを拡張し、低分子励起状態を決定する。
論文 参考訳(メタデータ) (2024-11-01T09:33:08Z) - Molecular Quantum Control Algorithm Design by Reinforcement Learning [0.0]
本研究では,RL-QLS(Regress-learning quantum-logic spectroscopy)を提案する。
RL-QLS(RL-QLS)は、分子イオンを単一の純粋な量子状態に合成する一般的な、強化学習設計の量子論理手法である。
制御アルゴリズムの性能は,130個の固有状態を持つ多原子分子H$_3$O$+$に対して数値的に実証された。
論文 参考訳(メタデータ) (2024-10-15T17:59:06Z) - QH9: A Quantum Hamiltonian Prediction Benchmark for QM9 Molecules [69.25826391912368]
QH9と呼ばれる新しい量子ハミルトンデータセットを生成し、999または2998の分子動力学軌道に対して正確なハミルトン行列を提供する。
現在の機械学習モデルでは、任意の分子に対するハミルトン行列を予測する能力がある。
論文 参考訳(メタデータ) (2023-06-15T23:39:07Z) - Photonic Quantum Computing For Polymer Classification [62.997667081978825]
2つのポリマークラス (VIS) と近赤外 (NIR) は, ポリマーギャップの大きさに基づいて定義される。
高分子構造の二項分類に対する古典量子ハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T11:59:52Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z) - Data-Driven Discovery of Molecular Photoswitches with Multioutput
Gaussian Processes [51.17758371472664]
フォトウィッチ可能な分子は、光によってアクセスされる2つ以上の異性体である。
本稿では、データセットキュレーションとマルチタスク学習を基盤とした、分子フォトウィッチのためのデータ駆動探索パイプラインを提案する。
提案手法は, 市販フォトウィッチ可能な分子のライブラリーをスクリーニングし, 実験的に検証した。
論文 参考訳(メタデータ) (2020-06-28T20:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。