論文の概要: Transformers for molecular property prediction: Domain adaptation efficiently improves performance
- arxiv url: http://arxiv.org/abs/2503.03360v3
- Date: Thu, 22 May 2025 14:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:21.830904
- Title: Transformers for molecular property prediction: Domain adaptation efficiently improves performance
- Title(参考訳): 分子特性予測のための変換器:ドメイン適応は効率良く性能を向上させる
- Authors: Afnan Sultan, Max Rausch-Dupont, Shahrukh Khan, Olga Kalinina, Dietrich Klakow, Andrea Volkamer,
- Abstract要約: 本研究は,事前学習データセットのサイズと化学情報による目的が性能に与える影響を評価する。
その結果,400K分子から800K分子へのデータセットの増大は性能の向上には至らなかった。
対照的に、小さなドメイン固有のデータセットに対するドメイン適応は、パフォーマンスを高める。
- 参考スコア(独自算出の注目度): 12.556171106847811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the past six years, molecular transformer models have become key tools in drug discovery. Most existing models are pre-trained on large, unlabeled datasets such as ZINC or ChEMBL. However, the extent to which large-scale pre-training improves molecular property prediction remains unclear. This study evaluates transformer models for this task while addressing their limitations. We explore how pre-training dataset size and chemically informed objectives impact performance. Our results show that increasing the dataset beyond approximately 400K to 800K molecules from large-scale unlabeled databases does not enhance performance across seven datasets covering five ADME endpoints: lipophilicity, permeability, solubility (two datasets), microsomal stability (two datasets), and plasma protein binding. In contrast, domain adaptation on a small, domain-specific dataset (less than or equal 4K molecules) using multi-task regression of physicochemical properties significantly boosts performance (P-value less than 0.001). A model pre-trained on 400K molecules and adapted with domain-specific data outperforms larger models such as MolFormer and performs comparably to MolBERT. Benchmarks against Random Forest (RF) baselines using descriptors and Morgan fingerprints show that chemically and physically informed features consistently yield better performance across model types. While RF remains a strong baseline, we identify concrete practices to enhance transformer performance. Aligning pre-training and adaptation with chemically meaningful tasks and domain-relevant data presents a promising direction for molecular property prediction. Our models are available on HuggingFace for easy use and adaptation.
- Abstract(参考訳): 過去6年間で、分子トランスフォーマーモデルは、薬物発見の鍵となるツールとなった。
既存のモデルのほとんどは、ZINCやChEMBLのような大規模でラベル付けされていないデータセットで事前トレーニングされている。
しかし, 大規模事前学習が分子特性予測に与える影響はいまだ不明である。
本研究では,この課題に対する変圧器モデルの評価を行い,その限界に対処する。
プレトレーニングデータセットのサイズと化学的にインフォームドされた目的がパフォーマンスに与える影響について検討する。
以上の結果から, 大規模データベースから約400Kから800Kの分子にデータセットを拡大しても, 脂肪度, 透過性, 溶解度 (2データセット), ミクロゾーム安定性 (2データセット), 血漿タンパク質結合の7つのエンドポイントをカバーする7つのデータセットのパフォーマンスは向上しないことがわかった。
対照的に、物理化学的性質のマルチタスク回帰を用いたドメイン固有データセット(4K分子以下)へのドメイン適応は、性能を著しく向上させる(P値が0.001未満)。
400K分子で事前訓練され、ドメイン固有データで適応されたモデルは、MolFormerのようなより大きなモデルより優れ、MolBERTと同等に機能する。
ディスクリプタとモーガン指紋を用いたランダムフォレスト(RF)ベースラインに対するベンチマークでは、化学的および物理的にインフォームドされた特徴がモデルタイプ全体のパフォーマンスを一貫して向上させることが示されている。
RFは依然として強力なベースラインでありながら,トランスフォーマー性能を高めるための具体的なプラクティスを特定している。
化学的に有意義なタスクとドメイン関連データによる事前学習と適応の調整は、分子特性予測に有望な方向を示す。
私たちのモデルは、簡単な使用と適応のためにHuggingFaceで利用可能です。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Generative Model for Small Molecules with Latent Space RL Fine-Tuning to Protein Targets [4.047608146173188]
トレーニング中に発生する無効な断片化分子の数を減らすため,SAFEに改良を加えた。
本モデルでは, 潜在空間からのサンプリングにより, 有効度90%, フラグメンテーション率1%の新規分子を生成できる。
論文 参考訳(メタデータ) (2024-07-02T16:01:37Z) - Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - Transformers for molecular property prediction: Lessons learned from the past five years [0.0]
我々は、現在利用可能なモデルを分析し、MPP用のトランスフォーマーモデルを微調整し、トレーニング時に生じる重要な質問を探索する。
我々は、異なるモデルを比較する際の課題に対処し、標準化されたデータ分割とロバストな統計分析の必要性を強調した。
論文 参考訳(メタデータ) (2024-04-05T09:05:37Z) - GP-MoLFormer: A Foundation Model For Molecular Generation [30.06169570297667]
我々は、大規模化学データセット上で化学言語変換器を訓練するパラダイムを、生成タスクにまで拡張する。
具体的にはGP-MoLFormerを提案する。GP-MoLFormerは1.1B(ビリオン)以上の化学SMILESで訓練される自己回帰型分子弦発生器である。
論文 参考訳(メタデータ) (2024-04-04T16:20:06Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Pre-training Transformers for Molecular Property Prediction Using
Reaction Prediction [0.0]
トランスファーラーニングはコンピュータビジョンや自然言語処理といった分野に大きな影響を与えた。
反応データを用いた分子表現学習のための事前学習手法を提案する。
未学習のベースラインモデルと比較して,12タスクのうち5タスクに対して統計的に有意な正の効果を示した。
論文 参考訳(メタデータ) (2022-07-06T14:51:38Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Molecular Attributes Transfer from Non-Parallel Data [57.010952598634944]
分子最適化をスタイル伝達問題として定式化し、非並列データの2つのグループ間の内部差を自動的に学習できる新しい生成モデルを提案する。
毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-11-30T06:10:22Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。