論文の概要: Automated Machine Learning Pipeline for Training and Analysis Using Large Language Models
- arxiv url: http://arxiv.org/abs/2509.21647v1
- Date: Thu, 25 Sep 2025 22:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.046295
- Title: Automated Machine Learning Pipeline for Training and Analysis Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた学習・分析のための自動機械学習パイプライン
- Authors: Adam Lahouari, Jutta Rogal, Mark E. Tuckerman,
- Abstract要約: データセット生成からモデル検証まで、ワークフロー全体を統一する自動機械学習パイプライン(AMLP)を導入します。
AMLPは、電子構造コードの選択、入力準備、出力変換を支援するために、大きな言語モデルエージェントを使用する。
アクリジンのポリモルフィックで検証され、基礎モデルの素直な微調整により、エネルギーの1.7 meV/原子と力の7.0 meV/AAの絶対誤差が達成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning interatomic potentials (MLIPs) have become powerful tools to extend molecular simulations beyond the limits of quantum methods, offering near-quantum accuracy at much lower computational cost. Yet, developing reliable MLIPs remains difficult because it requires generating high-quality datasets, preprocessing atomic structures, and carefully training and validating models. In this work, we introduce an Automated Machine Learning Pipeline (AMLP) that unifies the entire workflow from dataset creation to model validation. AMLP employs large-language-model agents to assist with electronic-structure code selection, input preparation, and output conversion, while its analysis suite (AMLP-Analysis), based on ASE supports a range of molecular simulations. The pipeline is built on the MACE architecture and validated on acridine polymorphs, where, with a straightforward fine-tuning of a foundation model, mean absolute errors of ~1.7 meV/atom in energies and ~7.0 meV/{\AA} in forces are achieved. The fitted MLIP reproduces DFT geometries with sub-{\AA} accuracy and demonstrates stability during molecular dynamics simulations in the microcanonical and canonical ensembles.
- Abstract(参考訳): 機械学習原子間ポテンシャル(MLIP)は、量子メソッドの限界を超えて分子シミュレーションを拡張する強力なツールとなり、計算コストのはるかに低い準量子精度を提供する。
しかし、高品質なデータセットを生成し、原子構造を前処理し、モデルを慎重にトレーニングし検証する必要があるため、信頼性の高いMLIPの開発は依然として困難である。
本研究では、データセット生成からモデル検証に至るまで、ワークフロー全体を統一する自動機械学習パイプライン(AMLP)を導入する。
AMLPは大規模言語モデルエージェントを使用して電子構造コードの選択、入力準備、出力変換を補助し、ASEに基づく解析スイート(AMLP-Analysis)は様々な分子シミュレーションをサポートする。
パイプラインはMACEアーキテクチャ上に構築され、アクリジンポリモルフィック上で検証され、ファンデーションモデルの直感的な微調整により、エネルギーにおける ~1.7 meV/atom と力における ~7.0 meV/{\AA} の絶対誤差が達成される。
MLIPはDFTジオメトリをサブ{\AAの精度で再現し、マイクロカノニカルアンサンブルとカノニカルアンサンブルの分子動力学シミュレーション中に安定性を示す。
関連論文リスト
- Ensemble Knowledge Distillation for Machine Learning Interatomic Potentials [34.82692226532414]
機械学習の原子間ポテンシャル(MLIP)を改善するためのアンサンブル知識蒸留法(EKD)を提案する。
まず、複数の教師モデルはQCエネルギーに訓練され、次にデータセットのすべての構成に対して原子力を生成する。次に、学生MLIPは、教師モデルによって生成されたQCエネルギーと平均的な力の両方に訓練される。
得られた学生MLIPは、Compum6ベンチマークで新しい最先端の精度を達成し、分子動力学シミュレーションの安定性の向上を示す。
論文 参考訳(メタデータ) (2025-03-18T14:32:51Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Materials Learning Algorithms (MALA): Scalable Machine Learning for Electronic Structure Calculations in Large-Scale Atomistic Simulations [2.04071520659173]
本稿では,大規模原子論シミュレーションに適したスケーラブルな機械学習フレームワークであるMaterial Learning Algorithms (MALA)パッケージを提案する。
MALAモデルは、状態の局所密度、電子密度、状態の密度、総エネルギーを含む重要な電子観測物を効率的に予測する。
我々は, ホウ素クラスター, 固液相境界を横切るアルミニウム, 大型ベリリウムスラブの積層断層の電子構造を予測した例でMALAの機能を示す。
論文 参考訳(メタデータ) (2024-11-29T11:10:29Z) - Multi-task learning for molecular electronic structure approaching coupled-cluster accuracy [9.81014501502049]
金標準CCSD(T)計算をトレーニングデータとして,有機分子の電子構造を統一した機械学習手法を開発した。
炭化水素分子を用いたモデルでは, 計算コストと様々な量子化学特性の予測精度において, 広範に用いられているハイブリッド関数と二重ハイブリッド関数でDFTより優れていた。
論文 参考訳(メタデータ) (2024-05-09T19:51:27Z) - Fine-Tuned Language Models Generate Stable Inorganic Materials as Text [53.81190146434045]
テキストエンコードされた原子構造データに基づく微調整された大規模言語モデルは、実装が簡単で信頼性が高い。
我々の最強モデルは、CDVAEの約2倍の速度で準安定であると予測された物質を生成することができる。
テキストプロンプト固有の柔軟性のため、我々のモデルは安定物質を無条件に生成するために同時に使用することができる。
論文 参考訳(メタデータ) (2024-02-06T20:35:28Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Automated discovery of a robust interatomic potential for aluminum [4.6028828826414925]
機械学習(ML)ベースのポテンシャルは、量子力学(QM)計算の忠実なエミュレーションを、計算コストを大幅に削減することを目的としている。
アクティブラーニング(AL)の原理を用いたデータセット構築のための高度に自動化されたアプローチを提案する。
アルミニウム(ANI-Al)のMLポテンシャル構築によるこのアプローチの実証
転写性を示すために、1.3M原子衝撃シミュレーションを行い、非平衡力学から採取した局所原子環境上でのDFT計算とANI-Al予測がよく一致することを示す。
論文 参考訳(メタデータ) (2020-03-10T19:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。