論文の概要: MultiPUFFIN: A Multimodal Domain-Constrained Foundation Model for Molecular Property Prediction of Small Molecules
- arxiv url: http://arxiv.org/abs/2603.00857v1
- Date: Sun, 01 Mar 2026 01:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.388148
- Title: MultiPUFFIN: A Multimodal Domain-Constrained Foundation Model for Molecular Property Prediction of Small Molecules
- Title(参考訳): MultiPUFFIN:小分子の分子特性予測のためのマルチモーダルドメイン制約基礎モデル
- Authors: Idelfonso B. R. Nogueira, Carine M. Rebelloa, Mumin Enis Leblebici, Erick Giovani Sperandio Nascimento,
- Abstract要約: MultiPUFFINは9つの熱物性を同時に予測する。
これは37,968個のユニークな分子(40,904行)のマルチソースデータセットで訓練されている。
ChemBERTa-2(7700万の分子で事前訓練された)と比較して、MultiPUFFINは9つの性質の全てで微調整されたベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 0.8699280339422538
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting physicochemical properties across chemical space is vital for chemical engineering, drug discovery, and materials science. Current molecular foundation models lack thermodynamic consistency, while domain-informed approaches are limited to single properties and small datasets. We introduce MultiPUFFIN, a domain-constrained multimodal foundation model addressing both limitations simultaneously. MultiPUFFIN features: (i) an encoder fusing SMILES, graphs, and 3D geometries via gated cross-modal attention, alongside experimental condition and descriptor encoders; (ii) prediction heads embedding established correlations (e.g., Wagner, Andrade, van't Hoff, and Shomate equations) as inductive biases to ensure thermodynamic consistency; and (iii) a two-stage multi-task training strategy.Extending prior frameworks, MultiPUFFIN predicts nine thermophysical properties simultaneously. It is trained on a multi-source dataset of 37,968 unique molecules (40,904 rows). With roughly 35 million parameters, MultiPUFFIN achieves a mean $R^2 = 0.716$ on a challenging scaffold-split test set of 8,877 molecules. Compared to ChemBERTa-2 (pre-trained on 77 million molecules), MultiPUFFIN outperforms the fine-tuned baseline across all nine properties despite using 2000x fewer training molecules. Advantages are strikingly apparent for temperature-dependent properties, where ChemBERTa-2 lacks the architectural capacity to incorporate thermodynamic conditions.These results demonstrate that multimodal encoding and domain-informed biases substantially reduce data and compute requirements compared to brute-force pre-training. Furthermore, MultiPUFFIN handles missing modalities and recovers meaningful thermodynamic parameters without explicit supervision. Systematic ablation studies confirm the property-specific benefits of these domain-informed prediction heads.
- Abstract(参考訳): 化学空間における物理化学的性質の予測は、化学工学、薬物発見、材料科学に不可欠である。
現在の分子基盤モデルは熱力学的一貫性に欠けており、ドメインインフォームドアプローチは単一の特性と小さなデータセットに限られている。
ドメイン制約付きマルチモーダル基盤モデルであるMultiPUFFINを導入する。
MultiPUFFIN の機能
(i)SMILES,グラフ及び3次元ジオメトリを、実験条件及びディスクリプタエンコーダとともにゲート横断注意により融合させるエンコーダ
(II) 熱力学的整合性を保証する誘導バイアスとして確立された相関(例えば、ワグナー、アンドレイド、ファント・ホフ、ショーメイト方程式)を埋め込んだ予測ヘッド
3)MultiPUFFINは2段階のマルチタスクトレーニング戦略であり、以前のフレームワークでは9つの熱物性を同時に予測する。
これは37,968個のユニークな分子(40,904行)のマルチソースデータセットで訓練されている。
約3500万のパラメータで、MultiPUFFINは8,877分子の挑戦的な足場分割試験セットで平均$R^2 = 0.716$を達成する。
ChemBERTa-2(7700万分子で事前訓練済み)と比較して、MultiPUFFINは2000倍のトレーニング分子を使用するにもかかわらず、9つの特性で微調整されたベースラインよりも優れている。
ChemBERTa-2は、熱力学条件を組み込むアーキテクチャ能力に欠けており、これらの結果は、マルチモーダル符号化とドメインインフォームドバイアスが、ブルートフォース事前学習と比較して、データと計算要求を著しく低減していることを示している。
さらに、MultiPUFFINはモダリティの欠如を処理し、明示的な監督なしに意味のある熱力学パラメータを復元する。
体系的アブレーション研究は、これらのドメインインフォームド予測ヘッドの特性固有の利点を裏付ける。
関連論文リスト
- Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials [51.342983349686556]
汎用的な3Dケミカルモデリングは分子や材料を含み、生成能力と予測能力の両方を必要とする。
Zatom-1は、3D分子や材料の生成的および予測的学習を統一する、エンド・ツー・エンドの完全なオープンソース基盤モデルである。
論文 参考訳(メタデータ) (2026-02-24T20:52:39Z) - Data-Driven Parametrization of Molecular Mechanics Force Fields for Expansive Chemical Space Coverage [16.745564099126575]
我々は、薬物様分子のアンバー互換力場であるByteFFを開発した。
本モデルでは, 薬物様分子のすべての結合および非結合MM力場パラメータを, 広い化学空間にわたって同時に予測する。
論文 参考訳(メタデータ) (2024-08-23T03:37:06Z) - Multi-task learning for molecular electronic structure approaching coupled-cluster accuracy [9.81014501502049]
金標準CCSD(T)計算をトレーニングデータとして,有機分子の電子構造を統一した機械学習手法を開発した。
炭化水素分子を用いたモデルでは, 計算コストと様々な量子化学特性の予測精度において, 広範に用いられているハイブリッド関数と二重ハイブリッド関数でDFTより優れていた。
論文 参考訳(メタデータ) (2024-05-09T19:51:27Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
いくつかの新しい分子は現実世界の薬物の基本的な要件を満たしていないため、MOODは特性予測器からの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Too big, too small or just right? A benchmark assessment of density
functional theory for predicting the spatial extent of the electron density
of small chemical systems [0.0]
100個の小分子に対して$mathcalK$のプリニカル成分のベンチマークデータセットを開発した。
このデータセットに対して、47の人気度と最近の密度関数の性能を評価した。
論文 参考訳(メタデータ) (2020-11-25T08:00:31Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - End-to-End Differentiable Molecular Mechanics Force Field Construction [0.5269923665485903]
化学環境を知覚するためにグラフニューラルネットワークを用いる別のアプローチを提案する。
プロセス全体がモジュール化されており、モデルパラメータに関してエンドツーエンドの差別化が可能である。
本手法は, 従来の原子型を再現するだけでなく, 既存の分子力学力場を正確に再現し, 拡張することができることを示す。
論文 参考訳(メタデータ) (2020-10-02T20:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。