論文の概要: MolE: a molecular foundation model for drug discovery
- arxiv url: http://arxiv.org/abs/2211.02657v1
- Date: Thu, 3 Nov 2022 21:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:08:18.035656
- Title: MolE: a molecular foundation model for drug discovery
- Title(参考訳): MolE:薬物発見のための分子基盤モデル
- Authors: Oscar M\'endez-Lucio, Christos Nicolaou, Berton Earnshaw
- Abstract要約: MolEは分子基盤モデルであり、DeBERTaアーキテクチャを分子グラフに適応させる。
Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
- 参考スコア(独自算出の注目度): 0.2802437011072858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models that accurately predict properties based on chemical structure are
valuable tools in drug discovery. However, for many properties, public and
private training sets are typically small, and it is difficult for the models
to generalize well outside of the training data. Recently, large language
models have addressed this problem by using self-supervised pretraining on
large unlabeled datasets, followed by fine-tuning on smaller, labeled datasets.
In this paper, we report MolE, a molecular foundation model that adapts the
DeBERTa architecture to be used on molecular graphs together with a two-step
pretraining strategy. The first step of pretraining is a self-supervised
approach focused on learning chemical structures, and the second step is a
massive multi-task approach to learn biological information. We show that
fine-tuning pretrained MolE achieves state-of-the-art results on 9 of the 22
ADMET tasks included in the Therapeutic Data Commons.
- Abstract(参考訳): 化学構造に基づく特性を正確に予測するモデルは、薬品の発見に有用である。
しかし、多くの特性において、一般に、パブリックとプライベートのトレーニングセットは小さく、トレーニングデータ以外でモデルをうまく一般化することは困難である。
近年,大規模言語モデルでは,ラベルのない大規模データセットでの自己教師あり事前学習と,より小さなラベル付きデータセットの微調整によってこの問題に対処している。
本稿では,分子グラフにDeBERTaアーキテクチャを適用した分子基盤モデルであるMoleを,2段階の事前学習戦略とともに報告する。
プリトレーニングの第一段階は化学構造を学ぶことに焦点を当てた自己監督型アプローチであり、第二段階は生物情報を学ぶための大規模なマルチタスクアプローチである。
Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
関連論文リスト
- Two-Stage Pretraining for Molecular Property Prediction in the Wild [38.31911435361748]
野生の様々な分子特性予測のために設計された多目的事前学習モデルであるMoleVersを紹介する。
MoleVersは、マスクされた原子予測と動的復調を通じて、大きなラベルのないデータセットから表現を学習する。
第2段階では、MoleVersはさらに安価な計算手法で得られた補助ラベルを用いて事前訓練される。
論文 参考訳(メタデータ) (2024-11-05T22:36:17Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Improving Molecular Pretraining with Complementary Featurizations [20.86159731100242]
分子プレトレーニング(英: molecular pretraining)は、計算化学と薬物発見における様々な課題を解決するためのパラダイムである。
化学情報を異なる方法で伝達できることが示される。
我々は, 簡易で効果的な分子事前学習フレームワーク(MOCO)を提案する。
論文 参考訳(メタデータ) (2022-09-29T21:11:09Z) - ChemBERTa-2: Towards Chemical Foundation Models [0.0]
SMILESの言語を用いたケミカルファンデーションモデルChemBERTa-2を構築した。
本研究では,事前学習プロセスの最適化によりChemBERTaを構築した。
我々の知る限り、77Mデータセットはこれまでに分子プレトレーニングに使われた最大のデータセットの1つである。
論文 参考訳(メタデータ) (2022-09-05T00:31:12Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - A semi-supervised learning framework for quantitative structure-activity
regression modelling [0.0]
本研究では, テスト化合物とトレーニングデータとの類似性を考慮した予測を行い, レポート選択バイアスの調整を行うことが可能であることを示す。
この手法について,GlaxoSmithKline が報告した大規模化合物の集合に関する公開構造活性データを用いて述べる。
論文 参考訳(メタデータ) (2020-01-07T07:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。