論文の概要: Data Curation for Machine Learning Interatomic Potentials by Determinantal Point Processes
- arxiv url: http://arxiv.org/abs/2603.22160v1
- Date: Mon, 23 Mar 2026 16:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.781891
- Title: Data Curation for Machine Learning Interatomic Potentials by Determinantal Point Processes
- Title(参考訳): 決定点プロセスによる機械学習原子間ポテンシャルのデータキュレーション
- Authors: Joanna Zou, Youssef Marzouk,
- Abstract要約: 機械学習の原子間ポテンシャルの開発は、有用なトレーニングデータセットの生成とラベル付けによって、重要な計算ボトルネックに直面している。
本稿では, 量子力学的手法による参照エネルギーと力のラベル付けを行うために, 原子構成の情報的部分集合を選択するタスクに対して, 決定点過程(DPP)の新たな適用法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of machine learning interatomic potentials faces a critical computational bottleneck with the generation and labeling of useful training datasets. We present a novel application of determinantal point processes (DPPs) to the task of selecting informative subsets of atomic configurations to label with reference energies and forces from costly quantum mechanical methods. Through experiments with hafnium oxide data, we show that DPPs are competitive with existing approaches to constructing compact but diverse training sets by utilizing kernels of molecular descriptors, leading to improved accuracy and robustness in machine learning representations of molecular systems. Our work identifies promising directions to employ DPPs for unsupervised training data curation with heterogeneous or multimodal data, or in online active learning schemes for iterative data augmentation during molecular dynamics simulation.
- Abstract(参考訳): 機械学習の原子間ポテンシャルの開発は、有用なトレーニングデータセットの生成とラベル付けによって、重要な計算ボトルネックに直面している。
本稿では, 量子力学的手法による参照エネルギーと力のラベル付けを行うために, 原子構成の情報的部分集合を選択するタスクに対して, 決定点過程(DPP)の新たな適用法を提案する。
酸化ハフニウムデータを用いた実験により、分子記述子のカーネルを利用することにより、DPPはコンパクトだが多様なトレーニングセットを構築するための既存のアプローチと競合し、分子系の機械学習表現の精度と堅牢性を向上させることが示されている。
分子動力学シミュレーションにおいて、不均一データやマルチモーダルデータを用いた教師なしトレーニングデータキュレーションや、反復的データ拡張のためのオンラインアクティブラーニングスキームにおいて、DPPを採用すべき方向を特定する。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - Ensemble Knowledge Distillation for Machine Learning Interatomic Potentials [34.82692226532414]
機械学習の原子間ポテンシャル(MLIP)を改善するためのアンサンブル知識蒸留法(EKD)を提案する。
まず、複数の教師モデルはQCエネルギーに訓練され、次にデータセットのすべての構成に対して原子力を生成する。次に、学生MLIPは、教師モデルによって生成されたQCエネルギーと平均的な力の両方に訓練される。
得られた学生MLIPは、Compum6ベンチマークで新しい最先端の精度を達成し、分子動力学シミュレーションの安定性の向上を示す。
論文 参考訳(メタデータ) (2025-03-18T14:32:51Z) - Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - Enhanced sampling of robust molecular datasets with uncertainty-based
collective variables [0.0]
化学関連データポイントの取得を導くために,不確実性を集合変数(CV)として活用する手法を提案する。
このアプローチでは、1つのモデルからのガウス混合モデルに基づく不確実性測定を、偏りのある分子動力学シミュレーションのためのCVとして採用する。
論文 参考訳(メタデータ) (2024-02-06T06:42:51Z) - On the Interplay of Subset Selection and Informed Graph Neural Networks [3.091456764812509]
この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
トレーニングセット選択過程における分子多様性の最大化は,線形回帰法および非線形回帰法のロバスト性を高めることを示す。
また、モデルに依存しない説明器を用いて、グラフニューラルネットワークによる予測の信頼性を確認する。
論文 参考訳(メタデータ) (2023-06-15T09:09:27Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。