論文の概要: Dual-view Molecule Pre-training
- arxiv url: http://arxiv.org/abs/2106.10234v1
- Date: Thu, 17 Jun 2021 03:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 13:57:03.513849
- Title: Dual-view Molecule Pre-training
- Title(参考訳): デュアルビュー分子プレトレーニング
- Authors: Jinhua Zhu, Yingce Xia, Tao Qin, Wengang Zhou, Houqiang Li, Tie-Yan
Liu
- Abstract要約: デュアルビュー分子事前学習は、両方のタイプの分子表現の強さを効果的に組み合わせることができる。
DMPは9つの分子特性予測タスクでテストされ、そのうち7つで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 186.07333992384287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by its success in natural language processing and computer vision,
pre-training has attracted substantial attention in cheminformatics and
bioinformatics, especially for molecule based tasks. A molecule can be
represented by either a graph (where atoms are connected by bonds) or a SMILES
sequence (where depth-first-search is applied to the molecular graph with
specific rules). Existing works on molecule pre-training use either graph
representations only or SMILES representations only. In this work, we propose
to leverage both the representations and design a new pre-training algorithm,
dual-view molecule pre-training (briefly, DMP), that can effectively combine
the strengths of both types of molecule representations. The model of DMP
consists of two branches: a Transformer branch that takes the SMILES sequence
of a molecule as input, and a GNN branch that takes a molecular graph as input.
The training of DMP contains three tasks: (1) predicting masked tokens in a
SMILES sequence by the Transformer branch, (2) predicting masked atoms in a
molecular graph by the GNN branch, and (3) maximizing the consistency between
the two high-level representations output by the Transformer and GNN branches
separately. After pre-training, we can use either the Transformer branch (this
one is recommended according to empirical results), the GNN branch, or both for
downstream tasks. DMP is tested on nine molecular property prediction tasks and
achieves state-of-the-art performances on seven of them. Furthermore, we test
DMP on three retrosynthesis tasks and achieve state-of-the-result on the
USPTO-full dataset. Our code will be released soon.
- Abstract(参考訳): 自然言語処理とコンピュータビジョンの成功に触発された事前学習は、特に分子ベースのタスクにおいて、化学情報学やバイオインフォマティクスに大きな注目を集めている。
分子はグラフ(原子が結合している部分)またはSMILES配列(深さ優先探索が特定の規則で分子グラフに適用される部分)で表すことができる。
既存の分子事前学習の研究では、グラフ表現のみまたはSMILES表現のみを使用する。
本研究では,両タイプの分子表現の強みを効果的に組み合わせた,新しい事前学習アルゴリズムである二重視点分子事前学習(DMP)の設計と表現の活用を提案する。
DMPのモデルは、分子のSMILES配列を入力とするTransformerブランチと、分子グラフを入力とするGNNブランチの2つで構成されている。
DMPのトレーニングは、(1)トランスフォーマーブランチによるSMILESシーケンスにおけるマスク付きトークンの予測、(2)分子グラフにおけるマスク付き原子の予測、(3)トランスフォーマーブランチとGNNブランチによって出力される2つのハイレベル表現間の一貫性の最大化の3つのタスクを含む。
事前トレーニング後、Transformerブランチ(これは経験的な結果に従って推奨される)、GNNブランチ、あるいは下流タスクの両方を使用できます。
DMPは9つの分子特性予測タスクでテストされ、そのうち7つで最先端のパフォーマンスを達成する。
さらに,3つのレトロシンセシスタスクでDMPをテストし,USPTO-fullデータセットでその状態を実現する。
私たちのコードはまもなくリリースされます。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning [17.93173928602627]
本稿では,マルチモーダル分子表現学習のためのトランスフォーマーベースラインを提案する。
我々は,SMILES文字列,2次元グラフ表現,分子の3次元コンフォメータの3つの異なるモダリティを統合する。
その単純さにもかかわらず、我々の手法は複数のデータセットにまたがって最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-10T14:36:58Z) - Molecular Property Prediction Based on Graph Structure Learning [29.516479802217205]
我々はGSL-MPPと呼ばれるグラフ構造学習(GSL)に基づくMPPアプローチを提案する。
具体的には、まず、分子グラフ上にグラフニューラルネットワーク(GNN)を適用し、分子表現を抽出する。
分子指紋を用いて分子類似性グラフ(MSG)を構築する。
論文 参考訳(メタデータ) (2023-12-28T06:45:13Z) - Rethinking Tokenizer and Decoder in Masked Graph Modeling for Molecules [81.05116895430375]
マスク付きグラフモデリングは、分子グラフの自己教師付き表現学習において優れている。
サブグラフレベルのトークン化器とremaskデコーディングを備えた十分表現力のあるデコーダがエンコーダの表現学習に大きな影響を与えることを示す。
我々は,単純なGNNベースのTokenizer(SGT)と効果的な復号化戦略を備えた,新しいMGM手法SimSGTを提案する。
論文 参考訳(メタデータ) (2023-10-23T09:40:30Z) - Geometry-aware Line Graph Transformer Pre-training for Molecular
Property Prediction [4.598522704308923]
Geometry-Aware line graph transformer (Galformer) は、新しい自己教師型学習フレームワークである。
Galformerは、分類タスクと回帰タスクの両方において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-09-01T14:20:48Z) - BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular
Representation [21.03650456372902]
分子表現を学習するバイブランチマスク付きグラフトランスフォーマーオートエンコーダ(BatmanNet)を提案する。
BatmanNetは2つの補完グラフと非対称グラフオートエンコーダを備えており、欠落したノードとエッジを再構築する。
分子特性予測、薬物と薬物の相互作用、薬物と標的の相互作用など、複数の薬物発見タスクの最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-11-25T09:44:28Z) - One Transformer Can Understand Both 2D & 3D Molecular Data [94.93514673086631]
我々はTransformer-Mと呼ばれる新しい分子モデルを開発した。
入力として2Dまたは3Dフォーマットの分子データを取り込み、意味のある意味表現を生成する。
実験の結果,Transformer-Mは2次元および3次元のタスクで高い性能を同時に達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T17:30:31Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。