論文の概要: Do Large Scale Molecular Language Representations Capture Important
Structural Information?
- arxiv url: http://arxiv.org/abs/2106.09553v1
- Date: Thu, 17 Jun 2021 14:33:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:03:58.470446
- Title: Do Large Scale Molecular Language Representations Capture Important
Structural Information?
- Title(参考訳): 大規模分子言語表現は重要な構造情報を取得するか?
- Authors: Jerret Ross, Brian Belgodere, Vijil Chenthamarakshan, Inkit Padhi,
Youssef Mroueh, Payel Das
- Abstract要約: 本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
- 参考スコア(独自算出の注目度): 31.76876206167457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting chemical properties from the structure of a molecule is of great
importance in many applications including drug discovery and material design.
Machine learning based molecular property prediction holds the promise of
enabling accurate predictions at much less complexity, when compared to, for
example Density Functional Theory (DFT) calculations. Features extracted from
molecular graphs, using graph neural nets in a supervised manner, have emerged
as strong baselines for such tasks. However, the vast chemical space together
with the limited availability of labels makes supervised learning challenging,
calling for learning a general-purpose molecular representation. Recently,
pre-trained transformer-based language models (PTLMs) on large unlabeled corpus
have produced state-of-the-art results in many downstream natural language
processing tasks. Inspired by this development, here we present molecular
embeddings obtained by training an efficient transformer encoder model,
referred to as MoLFormer. This model was employed with a linear attention
mechanism and highly paralleized training on 1D SMILES sequences of 1.1 billion
unlabeled molecules from the PubChem and ZINC datasets. Experiments show that
the learned molecular representation performs competitively, when compared to
existing graph-based and fingerprint-based supervised learning baselines, on
the challenging tasks of predicting properties of QM8 and QM9 molecules.
Further task-specific fine-tuning of the MoLFormerr representation improves
performance on several of those property prediction benchmarks. These results
provide encouraging evidence that large-scale molecular language models can
capture sufficient structural information to be able to accurately predict
quantum chemical properties and beyond.
- Abstract(参考訳): 分子の構造から化学特性を予測することは、薬物発見や材料設計を含む多くの応用において非常に重要である。
機械学習に基づく分子特性予測は、例えば密度汎関数理論(DFT)計算と比較して、はるかに少ない複雑さで正確な予測を可能にするという約束を持っている。
分子グラフから抽出した特徴は、グラフニューラルネットを教師付きで用い、そのようなタスクの強いベースラインとして現れている。
しかし、膨大な化学空間と限定的なラベルの利用可能性は教師あり学習を困難にし、汎用的な分子表現の学習を求める。
近年,大規模なラベル付きコーパス上でのトランスフォーマベース言語モデル (PTLM) は,多くの下流自然言語処理タスクにおいて最先端の結果を生み出している。
そこで本研究では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
このモデルは、PubChemおよびZINCデータセットから11億個の未標識分子からなる1D SMILES配列の線形アテンション機構と高度に並列化されたトレーニングを取り入れた。
実験により, 既存のグラフベースおよび指紋ベースの教師付き学習ベースラインと比較して, qm8分子とqm9分子の特性予測の難解な課題に対して, 学習分子表現が競争力を発揮することが示された。
MoLFormerr表現のタスク固有の微調整により、これらのプロパティ予測ベンチマークのパフォーマンスが向上する。
これらの結果は、大規模な分子言語モデルが十分な構造情報を捕捉し、量子化学特性を正確に予測できることを示す。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - KPGT: Knowledge-Guided Pre-training of Graph Transformer for Molecular
Property Prediction [13.55018269009361]
我々は、分子グラフ表現学習のための新しい自己教師付き学習フレームワーク、KPGT(Knowledge-guided Pre-training of Graph Transformer)を紹介する。
KPGTは、いくつかの分子特性予測タスクにおける最先端の手法よりも優れた性能を提供することができる。
論文 参考訳(メタデータ) (2022-06-02T08:22:14Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。