論文の概要: Fast and Interpretable Machine Learning Modelling of Atmospheric Molecular Clusters
- arxiv url: http://arxiv.org/abs/2509.11728v1
- Date: Mon, 15 Sep 2025 09:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.219767
- Title: Fast and Interpretable Machine Learning Modelling of Atmospheric Molecular Clusters
- Title(参考訳): 大気分子クラスターの高速かつ解釈可能な機械学習モデル
- Authors: Lauri Seppäläinen, Jakub Kubečka, Jonas Elm, Kai Puolamäki,
- Abstract要約: 単純な$k$-NNモデルは、より複雑なカーネルリッジ回帰モデルと精度良く競合できることを示す。
私たちの$k$-NNモデルは、ほぼ化学的精度を実現し、25万以上のエントリを持つデータセットにシームレスにスケールします。
- 参考スコア(独自算出の注目度): 1.771601061061997
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding how atmospheric molecular clusters form and grow is key to resolving one of the biggest uncertainties in climate modelling: the formation of new aerosol particles. While quantum chemistry offers accurate insights into these early-stage clusters, its steep computational costs limit large-scale exploration. In this work, we present a fast, interpretable, and surprisingly powerful alternative: $k$-nearest neighbour ($k$-NN) regression model. By leveraging chemically informed distance metrics, including a kernel-induced metric and one learned via metric learning for kernel regression (MLKR), we show that simple $k$-NN models can rival more complex kernel ridge regression (KRR) models in accuracy, while reducing computational time by orders of magnitude. We perform this comparison with the well-established Faber-Christensen-Huang-Lilienfeld (FCHL19) molecular descriptor, but other descriptors (e.g., FCHL18, MBDF, and CM) can be shown to have similar performance. Applied to both simple organic molecules in the QM9 benchmark set and large datasets of atmospheric molecular clusters (sulphuric acid-water and sulphuric-multibase -base systems), our $k$-NN models achieve near-chemical accuracy, scale seamlessly to datasets with over 250,000 entries, and even appears to extrapolate to larger unseen clusters with minimal error (often nearing 1 kcal/mol). With built-in interpretability and straightforward uncertainty estimation, this work positions $k$-NN as a potent tool for accelerating discovery in atmospheric chemistry and beyond.
- Abstract(参考訳): 大気中の分子クラスターがどのように形成、成長するかを理解することは、新しいエアロゾル粒子の形成という、気候モデリングにおける最大の不確実性を解決する鍵となる。
量子化学はこれらの初期段階のクラスターの正確な洞察を提供するが、計算コストの急激さは大規模な探査を制限している。
この研究では、高速で解釈可能で驚くほど強力な代替案を提示する:$k$-nearest neighbor(k$-NN)回帰モデル。
そこで, 簡単な$k$-NNモデルは, より複雑なカーネルリッジ回帰(KRR)モデルに匹敵し, 計算時間を桁違いに削減できることを示す。
本稿では,Faber-Christensen-Huang-Lilienfeld分子記述子 (FCHL19) との比較を行うが,他の記述子 (FCHL18, MBDF, CM) も同様の性能を示す。
QM9ベンチマークセットの単純な有機分子と大気中の分子クラスターの大規模なデータセット(硫酸水と硫酸乳酸塩基-塩基系)の両方に適用すると、我々の$k$-NNモデルは、ほぼ化学的に正確であり、25万以上のエントリを持つデータセットにシームレスにスケールし、最小のエラー(しばしば1 kcal/mol)で大きな未知のクラスターに外挿するように見える。
ビルトイン・イン・イン・イン・イン・イン・イン・イン・イン・イン・イン・インターセプタビリティーと分かりやすい不確実性推定により、この研究は、大気化学などの発見を加速するための強力なツールとして、$k$-NNを位置づけている。
関連論文リスト
- Aligned Manifold Property and Topology Point Clouds for Learning Molecular Properties [55.2480439325792]
この研究は、局所量子由来のスカラー場とカスタムトポロジカルディスクリプタを組み合わせた分子表面表現であるAMPTCRを導入する。
分子量については、AMPTCRが物理的に意味のあるデータをコードし、検証R2は0.87であることを確認した。
細菌抑制タスクでは、AMPTCRは大腸菌阻害値の分類と直接回帰の両方を可能にする。
論文 参考訳(メタデータ) (2025-07-22T04:35:50Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Leveraging Machine Learning to Overcome Limitations in Quantum Algorithms [0.0]
本研究は,機械学習(ML)と量子アルゴリズムを組み合わせたハイブリッドフレームワークを提案する。
PubChemの分子特性を用いて,3つのデータセット(ケミカルディスクリプタ,クーロンマトリックス,ハイブリッド組み合わせ)を調製した。
XGBは4.41 pm 11.18%$で、RF(5.56 pm 11.66%$)とLGBM(5.32 pm 12.87%$)を上回った。
論文 参考訳(メタデータ) (2024-12-16T03:14:14Z) - A Microstructure-based Graph Neural Network for Accelerating Multiscale
Simulations [0.0]
本稿では,この問題のマルチスケール性を維持するための代替的な代理モデル戦略を提案する。
我々は, 顕微鏡材料モデルを維持しながら, グラフニューラルネットワーク(GNN)を用いて, フルフィールドの顕微鏡歪みを予測した。
本研究では,サロゲートが複雑なマクロな応力-ひずみ経路を予測可能であることを示す。
論文 参考訳(メタデータ) (2024-02-20T15:54:24Z) - Improving Molecular Properties Prediction Through Latent Space Fusion [9.912768918657354]
本稿では,最先端の化学モデルから導出した潜在空間を組み合わせた多視点手法を提案する。
分子構造をグラフとして表現するMHG-GNNの埋め込みと、化学言語に根ざしたMoLFormerの埋め込みである。
本稿では,既存の最先端手法と比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-20T20:29:32Z) - Gibbs-Helmholtz Graph Neural Network: capturing the temperature
dependency of activity coefficients at infinite dilution [1.290382979353427]
我々は,Gibs-Helmholtz Graph Neural Network (GH-GNN) モデルを構築し,温度の異なる分子系の$ln gamma_ijinfty$を予測する。
本稿では,GH-GNNの性能を連続的かつ離散的に解析し,モデルの適用性領域と予測精度を示す。
論文 参考訳(メタデータ) (2022-12-02T14:25:58Z) - MolGraph: a Python package for the implementation of molecular graphs
and graph neural networks with TensorFlow and Keras [51.92255321684027]
MolGraphは、分子機械学習(ML)のためのグラフニューラルネットワーク(GNN)パッケージである
MolGraphは、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。
GNNは分子識別に有用であり,クロマトグラフィー保持時間データの解釈性が向上した。
論文 参考訳(メタデータ) (2022-08-21T18:37:41Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - Predicting molecular dipole moments by combining atomic partial charges
and atomic dipoles [3.0980025155565376]
高レベル結合クラスター理論を用いて計算した分子$boldsymbolmu$を再現するために、「MuML」モデルが組み合わされた。
校正委員会モデルを用いて予測の不確かさを確実に推定できることを実証する。
論文 参考訳(メタデータ) (2020-03-27T14:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。