論文の概要: Two-Stage Pretraining for Molecular Property Prediction in the Wild
- arxiv url: http://arxiv.org/abs/2411.03537v2
- Date: Fri, 18 Jul 2025 13:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 14:37:14.788217
- Title: Two-Stage Pretraining for Molecular Property Prediction in the Wild
- Title(参考訳): 野生における分子特性予測のための2段階前処理
- Authors: Kevin Tirta Wijaya, Minghao Guo, Michael Sun, Hans-Peter Seidel, Wojciech Matusik, Vahid Babaei,
- Abstract要約: そこで本研究では,野生における様々な分子特性予測のための分子モデルであるMoleVersを紹介する。
MoleVersは、マスクされた原子予測と極端なデノイングを通じて、ラベルのないデータから表現を学習する。
第2段階では、計算手法から導かれた補助特性の予測を通じてこれらの表現を洗練する。
- 参考スコア(独自算出の注目度): 38.31911435361748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Molecular deep learning models have achieved remarkable success in property prediction, but they often require large amounts of labeled data. The challenge is that, in real-world applications, labels are extremely scarce, as obtaining them through laboratory experimentation is both expensive and time-consuming. In this work, we introduce MoleVers, a versatile pretrained molecular model designed for various types of molecular property prediction in the wild, i.e., where experimentally-validated labels are scarce. MoleVers employs a two-stage pretraining strategy. In the first stage, it learns molecular representations from unlabeled data through masked atom prediction and extreme denoising, a novel task enabled by our newly introduced branching encoder architecture and dynamic noise scale sampling. In the second stage, the model refines these representations through predictions of auxiliary properties derived from computational methods, such as the density functional theory or large language models. Evaluation on 22 small, experimentally-validated datasets demonstrates that MoleVers achieves state-of-the-art performance, highlighting the effectiveness of its two-stage framework in producing generalizable molecular representations for diverse downstream properties.
- Abstract(参考訳): 分子深層学習モデルは、特性予測において顕著な成功を収めてきたが、しばしば大量のラベル付きデータを必要とする。
課題は、現実世界のアプリケーションではラベルが極めて少なく、実験を通じてラベルを得るのは高価で時間を要するためである。
本研究では,野生における様々な分子特性予測のために設計された,多種多様な事前学習分子モデルであるMoleVersを紹介する。
MoleVersは2段階の事前訓練戦略を採用している。
第1段階では,新たに導入した分岐エンコーダアーキテクチャと動的ノイズスケールサンプリングによって実現された新しい課題である,マスク付き原子予測と極度のデノイングにより,ラベル付きデータから分子表現を学習する。
第2段階では、密度汎関数理論や大言語モデルなどの計算手法から導かれる補助特性の予測を通じて、これらの表現を洗練する。
実験によって検証された22個の小さなデータセットの評価は、MoleVersが最先端のパフォーマンスを実現し、様々な下流特性のための一般化可能な分子表現を生成するための2段階のフレームワークの有効性を強調している。
関連論文リスト
- Descriptor-based Foundation Models for Molecular Property Prediction [0.3277163122167433]
本研究は、決定論的分子記述子を事前学習した新しい分子基盤モデルであるCheMeleonを紹介する。
チェメレオンは、豊かな分子表現を学ぶために低ノイズ分子記述子を用いる。
PolarisとMoeculeACEの58のベンチマークデータセットに基づいて評価され、CheMeleonはPolarisタスクで79%の勝利率を達成した。
論文 参考訳(メタデータ) (2025-06-18T18:21:50Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - MolE: a molecular foundation model for drug discovery [0.2802437011072858]
MolEは分子基盤モデルであり、DeBERTaアーキテクチャを分子グラフに適応させる。
Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-11-03T21:22:05Z) - Unraveling Key Elements Underlying Molecular Property Prediction: A
Systematic Study [27.56700461408765]
分子特性予測の根底にある重要な要素はほとんど未発見のままである。
我々は,MoreculeNetデータセット上の様々な表現を用いて,代表モデルの広範囲な評価を行う。
合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む訓練を行った。
論文 参考訳(メタデータ) (2022-09-26T14:07:59Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。