論文の概要: Descriptor-based Foundation Models for Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2506.15792v1
- Date: Wed, 18 Jun 2025 18:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.791262
- Title: Descriptor-based Foundation Models for Molecular Property Prediction
- Title(参考訳): 分子特性予測のための記述子に基づく基礎モデル
- Authors: Jackson Burns, Akshat Zalte, William Green,
- Abstract要約: 本研究は、決定論的分子記述子を事前学習した新しい分子基盤モデルであるCheMeleonを紹介する。
チェメレオンは、豊かな分子表現を学ぶために低ノイズ分子記述子を用いる。
PolarisとMoeculeACEの58のベンチマークデータセットに基づいて評価され、CheMeleonはPolarisタスクで79%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Fast and accurate prediction of molecular properties with machine learning is pivotal to scientific advancements across myriad domains. Foundation models in particular have proven especially effective, enabling accurate training on small, real-world datasets. This study introduces CheMeleon, a novel molecular foundation model pre-trained on deterministic molecular descriptors from the Mordred package, leveraging a Directed Message-Passing Neural Network to predict these descriptors in a noise-free setting. Unlike conventional approaches relying on noisy experimental data or biased quantum mechanical simulations, CheMeleon uses low-noise molecular descriptors to learn rich molecular representations. Evaluated on 58 benchmark datasets from Polaris and MoleculeACE, CheMeleon achieves a win rate of 79% on Polaris tasks, outperforming baselines like Random Forest (46%), fastprop (39%), and Chemprop (36%), and a 97% win rate on MoleculeACE assays, surpassing Random Forest (63%) and other foundation models. However, it struggles to distinguish activity cliffs like many of the tested models. The t-SNE projection of CheMeleon's learned representations demonstrates effective separation of chemical series, highlighting its ability to capture structural nuances. These results underscore the potential of descriptor-based pre-training for scalable and effective molecular property prediction, opening avenues for further exploration of descriptor sets and unlabeled datasets.
- Abstract(参考訳): 機械学習による分子特性の高速かつ正確な予測は、無数の領域にまたがる科学的進歩に重要な要素である。
特にファンデーションモデルは特に効果的であることが証明されており、小さな実世界のデータセットの正確なトレーニングを可能にしている。
本研究では,Mordredパッケージから決定論的分子記述子を事前学習した新しい分子基盤モデルであるCheMeleonを紹介する。
ノイズの多い実験データや偏りのある量子力学シミュレーションに依存する従来の手法とは異なり、CheMeleonは低ノイズの分子記述子を使用してリッチな分子表現を学習する。
58のベンチマークデータセットで評価されたCheMeleonは、Polarisタスクで79%の勝利率、Random Forest(46%)、Fastprop(39%)、Chemprop(36%)、MorocleACEアッセイで97%の勝利率、Random Forest(63%)、その他の基盤モデルで勝っている。
しかし、多くのテストされたモデルとアクティビティの崖を区別するのに苦労している。
チェメレオンの学習された表現のt-SNE投影は、化学系列の効果的な分離を示し、構造的ニュアンスを捉える能力を強調している。
これらの結果は、スケーラブルで効果的な分子特性予測のためのディスクリプタベースの事前学習の可能性を強調し、ディスクリプタセットと未ラベルデータセットのさらなる探索のための道を開いた。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Unraveling Key Elements Underlying Molecular Property Prediction: A
Systematic Study [27.56700461408765]
分子特性予測の根底にある重要な要素はほとんど未発見のままである。
我々は,MoreculeNetデータセット上の様々な表現を用いて,代表モデルの広範囲な評価を行う。
合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む訓練を行った。
論文 参考訳(メタデータ) (2022-09-26T14:07:59Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。