論文の概要: Improving the accuracy and generalizability of molecular property regression models with a substructure-substitution-rule-informed framework
- arxiv url: http://arxiv.org/abs/2511.08314v1
- Date: Wed, 12 Nov 2025 01:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.756134
- Title: Improving the accuracy and generalizability of molecular property regression models with a substructure-substitution-rule-informed framework
- Title(参考訳): サブストラクチャー-置換-ルールインフォームド・フレームワークを用いた分子特性回帰モデルの精度と一般化性の向上
- Authors: Xiaoyu Fan, Lin Guo, Ruizhen Jia, Yang Tian, Zhihao Yang, Boxue Tian,
- Abstract要約: MolRuleLossは、分子特性回帰モデルの精度と一般化性を改善するサブ構造置換ルールインフォームドフレームワークである。
我々は,MPRMにMorruleLossを付加することにより得られた予測精度の最大値に,SSRの個数と品質の両方が寄与することを示した。
- 参考スコア(独自算出の注目度): 23.613223733937364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI)-aided drug discovery is an active research field, yet AI models often exhibit poor accuracy in regression tasks for molecular property prediction, and perform catastrophically poorly for out-of-distribution (OOD) molecules. Here, we present MolRuleLoss, a substructure-substitution-rule-informed framework that improves the accuracy and generalizability of multiple molecular property regression models (MPRMs) such as GEM and UniMol for diverse molecular property prediction tasks. MolRuleLoss incorporates partial derivative constraints for substructure substitution rules (SSRs) into an MPRM's loss function. When using GEM models for predicting lipophilicity, water solubility, and solvation-free energy (using lipophilicity, ESOL, and freeSolv datasets from MoleculeNet), the root mean squared error (RMSE) values with and without MolRuleLoss were 0.587 vs. 0.660, 0.777 vs. 0.798, and 1.252 vs. 1.877, respectively, representing 2.6-33.3% performance improvements. We show that both the number and the quality of SSRs contribute to the magnitude of prediction accuracy gains obtained upon adding MolRuleLoss to an MPRM. MolRuleLoss improved the generalizability of MPRMs for "activity cliff" molecules in a lipophilicity prediction task and improved the generalizability of MPRMs for OOD molecules in a melting point prediction task. In a molecular weight prediction task for OOD molecules, MolRuleLoss reduced the RMSE value of a GEM model from 29.507 to 0.007. We also provide a formal demonstration that the upper bound of the variation for property change of SSRs is positively correlated with an MPRM's error. Together, we show that using the MolRuleLoss framework as a bolt-on boosts the prediction accuracy and generalizability of multiple MPRMs, supporting diverse applications in areas like cheminformatics and AI-aided drug discovery.
- Abstract(参考訳): 人工知能(AI)を利用した薬物発見は、活発な研究分野であるが、AIモデルは、分子特性予測のための回帰タスクの精度が悪く、オフ・オブ・ディストリビューション(OOD)分子に対して破滅的に不十分である。
本稿では,GEM や UniMol などの多分子特性回帰モデル (MPRM) の精度と一般化性を向上させるサブストラクチャー-置換-ルールインフォームドフレームワークである MolRuleLoss を提案する。
MolRuleLossは部分構造置換規則(SSR)の偏微分制約をMPRMの損失関数に組み込む。
GEMモデルを用いてリポフィリシティ、水溶解性、およびモレクルネットのフリーソルブデータセット(リポフィリシティ、ESOL、フリーソルブデータセット)を予測する場合、MorruleLoss と非使用のルート平均二乗誤差(RMSE)値は 0.587 vs. 0.660、0.777 vs. 0.798、525252 vs. 1.877 であり、それぞれ2.6-33.3% の性能改善を示している。
我々は,MPRMにMorruleLossを付加することにより得られた予測精度の最大値に,SSRの個数と品質の両方が寄与することを示した。
MolRuleLossは、リポフィリティー予測タスクにおける「活性崖」分子のMPRMの一般化性を改善し、融点予測タスクにおけるOOD分子のMPRMの一般化性を改善した。
OOD分子の分子量予測タスクでは、MorruleLossはGEMモデルのRMSE値を29.507から0.007に削減した。
また,SSRの特性変化の上限がMPRMの誤差と正に相関していることを示す。
共に,MorruleLossフレームワークをボルトオンとして使用することで,複数のMPRMの予測精度と一般化性が向上し,ケミノフォマティクスやAI支援薬物発見などの分野における多様な応用を支援することを示す。
関連論文リスト
- Aligned Manifold Property and Topology Point Clouds for Learning Molecular Properties [55.2480439325792]
この研究は、局所量子由来のスカラー場とカスタムトポロジカルディスクリプタを組み合わせた分子表面表現であるAMPTCRを導入する。
分子量については、AMPTCRが物理的に意味のあるデータをコードし、検証R2は0.87であることを確認した。
細菌抑制タスクでは、AMPTCRは大腸菌阻害値の分類と直接回帰の両方を可能にする。
論文 参考訳(メタデータ) (2025-07-22T04:35:50Z) - Adaptive Substructure-Aware Expert Model for Molecular Property Prediction [5.087741013479207]
グラフニューラルネットワーク(GNN)は分子を分子グラフとしてモデル化することで有望な結果を示す。
既存の方法は、しばしば異なるサブストラクチャーの分子特性への様々な貢献を見落としている。
分子特性予測にMixture-of-Experts(MoE)アプローチを利用する新しいGNNベースのフレームワークであるPhil-Molを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:25:03Z) - Unveiling Molecular Secrets: An LLM-Augmented Linear Model for Explainable and Calibratable Molecular Property Prediction [26.25787628872043]
この研究は、分子特性の正確な予測のための単純な、しかし強力な線形モデルを構築するための、MoleXと呼ばれる新しいフレームワークを提案する。
MoleXの核心は、単純な線形モデルを用いて複雑な分子構造-プロパティ関係をモデル化することであり、LCMの知識と巧妙な校正戦略によって強化される。
大規模な実験により、MoleXは分子特性予測において既存の手法よりも優れており、予測性能、説明可能性、効率性の新たなマイルストーンを確立している。
論文 参考訳(メタデータ) (2024-10-11T14:07:57Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - Optimizing Molecules using Efficient Queries from Property Evaluations [66.66290256377376]
汎用的なクエリベースの分子最適化フレームワークであるQMOを提案する。
QMOは効率的なクエリに基づいて入力分子の所望の特性を改善する。
QMOは, 有機分子を最適化するベンチマークタスクにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:51:18Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Predicting drug properties with parameter-free machine learning:
Pareto-Optimal Embedded Modeling (POEM) [0.13854111346209866]
POEMは、最適化を必要とせず、信頼性の高い予測モデルを生成するために開発された非パラメトリックな教師付きMLアルゴリズムである。
我々は、業界標準のMLアルゴリズムと比較してPOEMをベンチマークし、17の分類タスクにまたがって結果を公表する。
論文 参考訳(メタデータ) (2020-02-11T17:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。