論文の概要: Foundation Models for Discovery and Exploration in Chemical Space
- arxiv url: http://arxiv.org/abs/2510.18900v1
- Date: Mon, 20 Oct 2025 17:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.222326
- Title: Foundation Models for Discovery and Exploration in Chemical Space
- Title(参考訳): ケミカルスペースにおける発見と探索のための基礎モデル
- Authors: Alexius Wadell, Anoushka Bhutani, Victor Azumah, Austin R. Ellis-Mohr, Celia Kelly, Hancheng Zhao, Anuj K. Nayak, Kareem Hegazy, Alexander Brace, Hongyi Lin, Murali Emani, Venkatram Vishwanath, Kevin Gering, Melisa Alkan, Tom Gibbs, Jack Wells, Lav R. Varshney, Bharath Ramsundar, Karthik Duraisamy, Michael W. Mahoney, Arvind Ramanathan, Venkatasubramanian Viswanathan,
- Abstract要約: MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
- 参考スコア(独自算出の注目度): 57.97784111110166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate prediction of atomistic, thermodynamic, and kinetic properties from molecular structures underpins materials innovation. Existing computational and experimental approaches lack the scalability required to efficiently navigate chemical space. Scientific foundation models trained on large unlabeled datasets offer a path toward exploring chemical space across diverse application domains. Here we develop MIST, a family of molecular foundation models with up to an order of magnitude more parameters and data than prior works. Trained using a novel tokenization scheme that comprehensively captures nuclear, electronic, and geometric information, MIST learns from a diverse range of molecules. MIST models have been fine-tuned to predict more than 400 structure -- property relationships and match or exceed state-of-the-art performance across benchmarks spanning physiology, electrochemistry, and quantum chemistry. We demonstrate the ability of these models to solve real-world problems across chemical space, including multiobjective electrolyte solvent screening, olfactory perception mapping, isotope half-life prediction, stereochemical reasoning for chiral organometallic compounds, and binary and multi-component mixture property prediction. Probing MIST models using mechanistic interpretability methods reveals identifiable patterns and trends not explicitly present in the training data, suggesting that the models learn generalizable scientific concepts. We formulate hyperparameter-penalized Bayesian neural scaling laws and use them to reduce the computational cost of model development by an order of magnitude. The methods and findings presented here represent a significant step toward accelerating materials discovery, design, and optimization using foundation models and provide valuable guidance for training compute-optimal scientific foundation models.
- Abstract(参考訳): 分子構造からの原子論、熱力学、運動特性の正確な予測は、材料の革新を支えている。
既存の計算および実験的なアプローチでは、化学空間を効率的にナビゲートするために必要なスケーラビリティが欠如している。
大規模なラベルなしデータセットでトレーニングされた科学基盤モデルは、さまざまなアプリケーションドメインにわたる化学空間を探索するための道筋を提供する。
ここでは、分子基盤モデルのファミリーであるMISTを開発する。
MISTは、核、電子、および幾何学的情報を包括的にキャプチャする新しいトークン化スキームを用いて訓練され、多様な分子から学習する。
MISTモデルは400以上の構造 -- 特性関係を予測し、生理学、電気化学、量子化学にまたがるベンチマークにまたがる最先端のパフォーマンスを達成または達成するために微調整されている。
多目的電解質溶媒スクリーニング、嗅覚マッピング、同位体半減期予測、キラル有機金属化合物の立体化学的推論、二成分および多成分混合特性予測などである。
機械的解釈可能性法を用いてMISTモデルを探索すると、トレーニングデータに明示的に存在しない識別可能なパターンや傾向が明らかになり、モデルが一般化可能な科学的概念を学ぶことが示唆される。
我々は,超平準化ベイズ型ニューラルスケーリング法を定式化し,それを用いてモデル開発における計算コストを桁違いに削減する。
本研究は, 基礎モデルを用いた材料発見, 設計, 最適化の促進に向けた重要な一歩であり, 計算・最適科学基盤モデルのトレーニングのための貴重なガイダンスを提供する。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Generative structured normalizing flow Gaussian processes applied to
spectroscopic data [4.0773490083614075]
物理科学では、限られた訓練データは将来の観測データを適切に特徴づけることができない。
特に外挿を依頼される場合、モデルが不確実性を適切に示すことは重要である。
火星探査機キュリオシティに搭載されたChemCam装置のレーザ誘起分解分光データに関する方法論を実証した。
論文 参考訳(メタデータ) (2022-12-14T23:57:46Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z) - Multi-task learning for electronic structure to predict and explore
molecular potential energy surfaces [39.228041052681526]
我々はOrbNetモデルを洗練し、分子のエネルギー、力、その他の応答特性を正確に予測する。
このモデルは、すべての電子構造項に対する解析的勾配の導出により、エンドツーエンドで微分可能である。
ドメイン固有の特徴を用いることにより、化学空間をまたいで移動可能であることが示されている。
論文 参考訳(メタデータ) (2020-11-05T06:48:46Z) - Physics-Constrained Predictive Molecular Latent Space Discovery with
Graph Scattering Variational Autoencoder [0.0]
我々は小データ構造における変分推論とグラフ理論に基づく分子生成モデルを開発する。
モデルの性能は、所望の目的特性を持つ分子を生成することによって評価される。
論文 参考訳(メタデータ) (2020-09-29T09:05:27Z) - Graph Neural Network for Hamiltonian-Based Material Property Prediction [56.94118357003096]
無機材料のバンドギャップを予測できるいくつかの異なるグラフ畳み込みネットワークを提示し、比較する。
モデルは、それぞれの軌道自体の情報と相互の相互作用の2つの異なる特徴を組み込むように開発されている。
その結果,クロスバリデーションにより予測精度が期待できることがわかった。
論文 参考訳(メタデータ) (2020-05-27T13:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。