論文の概要: BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular
Representation
- arxiv url: http://arxiv.org/abs/2211.13979v2
- Date: Tue, 29 Nov 2022 07:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 12:22:21.805113
- Title: BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular
Representation
- Title(参考訳): batmannet:分子表現のためのバイブランチマスクグラフトランスフォーマーオートエンコーダ
- Authors: Zhen Wang, Zheng Feng, Yanjun Li, Bowen Li, Yongrui Wang, Chulin Sha,
Min He, Xiaolin Li
- Abstract要約: 分子表現学習のための新しい事前学習モデルであるBi-branch Masked Graph Transformer Autoencoder(BatmanNet)を提案する。
BatmanNetは、マスクされた分子グラフから欠落したノードとエッジを再構築する2つの調整された補足グラフオートエンコーダを備えている。
2.575Mパラメータを持つ我々のBatmanNetは、1100M分子上で事前学習された100Mパラメータの現在の最先端手法と比較して平均AUCの0.5%改善を実現している。
- 参考スコア(独自算出の注目度): 13.82480240704433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although substantial efforts have been made using graph neural networks
(GNNs) for AI-driven drug discovery (AIDD), effective molecular representation
learning remains an open challenge, especially in the case of insufficient
labeled molecules. Recent studies suggest that big GNN models pre-trained by
self-supervised learning on unlabeled datasets enable better transfer
performance in downstream molecular property prediction tasks. However, they
often require large-scale datasets and considerable computational resources,
which is time-consuming, computationally expensive, and environmentally
unfriendly. To alleviate these limitations, we propose a novel pre-training
model for molecular representation learning, Bi-branch Masked Graph Transformer
Autoencoder (BatmanNet). BatmanNet features two tailored and complementary
graph autoencoders to reconstruct the missing nodes and edges from a masked
molecular graph. To our surprise, BatmanNet discovered that the highly masked
proportion (60%) of the atoms and bonds achieved the best performance. We
further propose an asymmetric graph-based encoder-decoder architecture for
either nodes and edges, where a transformer-based encoder only takes the
visible subset of nodes or edges, and a lightweight decoder reconstructs the
original molecule from the latent representation and mask tokens. With this
simple yet effective asymmetrical design, our BatmanNet can learn efficiently
even from a much smaller-scale unlabeled molecular dataset to capture the
underlying structural and semantic information, overcoming a major limitation
of current deep neural networks for molecular representation learning. For
instance, using only 250K unlabelled molecules as pre-training data, our
BatmanNet with 2.575M parameters achieves a 0.5% improvement on the average AUC
compared with the current state-of-the-art method with 100M parameters
pre-trained on 11M molecules.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)をAIDD(AI-driven drug discovery)に応用する試みが盛んに行われているが、特にラベル付き分子が不十分な場合には、効果的な分子表現学習は未解決の課題である。
近年の研究では、ラベルなしデータセットの自己教師付き学習によって事前訓練された大きなGNNモデルにより、下流の分子特性予測タスクにおける転送性能が向上することが示唆されている。
しかし、それらはしばしば大規模なデータセットとかなりの計算資源を必要とし、それは時間消費、計算コスト、環境にやさしいものである。
これらの制約を緩和するために,分子表現学習のための新しい事前学習モデル,バイブランチマスクグラフトランスフォーマーオートエンコーダ(batmannet)を提案する。
BatmanNetは、マスクされた分子グラフから欠落したノードとエッジを再構築する2つの調整された補足グラフオートエンコーダを備えている。
驚いたことに、BatmanNetは、原子と結合の非常に隠蔽された割合(60%)が最高の性能を達成したことに気づいた。
さらに,ノードやエッジに対して非対称なグラフベースのエンコーダ-デコーダアーキテクチャを提案する。トランスフォーマベースのエンコーダはノードやエッジの可視サブセットのみを取り,軽量デコーダは潜在表現とマスクトークンから元の分子を再構築する。
この単純かつ効果的な非対称設計により、我々のバットマンネットは、分子表現学習のための現在のディープニューラルネットワークの大きな制限を克服し、基礎となる構造的および意味的情報をキャプチャするために、ずっと小さなラベルのない分子データセットからでも効率的に学習することができる。
例えば、250Kの未標識分子を事前学習データとして使うと、2.575Mのパラメータを持つBatmanNetは、1100Mの分子に事前学習された100Mのパラメータを持つ現在の最先端の手法と比較して平均AUCの0.5%の改善を達成する。
関連論文リスト
- Molecular Graph Representation Learning via Structural Similarity Information [11.38130169319915]
我々は新しい分子グラフ表現学習法である textbf Structure similarity Motif GNN (MSSM-GNN) を紹介する。
特に,分子間の類似性を定量的に表現するために,グラフカーネルアルゴリズムを利用した特殊設計グラフを提案する。
我々はGNNを用いて分子グラフから特徴表現を学習し、追加の分子表現情報を組み込むことで特性予測の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-09-13T06:59:10Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - RGCVAE: Relational Graph Conditioned Variational Autoencoder for
Molecule Design [70.59828655929194]
ディープグラフ変分自動エンコーダは、この問題に対処可能な、最も強力な機械学習ツールの1つである。
i)新しい強力なグラフ同型ネットワークを利用した符号化ネットワーク,(ii)新しい確率的復号化コンポーネントを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:23:48Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - HiGNN: Hierarchical Informative Graph Neural Networks for Molecular
Property Prediction Equipped with Feature-Wise Attention [5.735627221409312]
分子特性を予測するための階層型情報グラフニューラルネットワークフレームワーク(HiGNN)を提案する。
実験により、HiGNNは、多くの挑戦的な薬物発見関連ベンチマークデータセットに対して最先端の予測性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-30T05:16:15Z) - Attention-wise masked graph contrastive learning for predicting
molecular property [15.387677968070912]
大規模無ラベル分子のための自己教師付き表現学習フレームワークを提案する。
我々は,注目グラフマスクと呼ばれる新しい分子グラフ拡張戦略を開発した。
我々のモデルは重要な分子構造と高次意味情報を捉えることができる。
論文 参考訳(メタデータ) (2022-05-02T00:28:02Z) - Learn molecular representations from large-scale unlabeled molecules for
drug discovery [19.222413268610808]
分子プレトレーニンググラフベースのディープラーニングフレームワークmpgは、大規模なラベルなし分子から分子表現を頼りにする。
molgnetは、解釈可能な表現を生み出すために貴重な化学的洞察を捉えることができる。
MPGは、薬物発見パイプラインにおける新しいアプローチになることを約束している。
論文 参考訳(メタデータ) (2020-12-21T08:21:49Z) - Advanced Graph and Sequence Neural Networks for Molecular Property
Prediction and Drug Discovery [53.00288162642151]
計算モデルや分子表現にまたがる包括的な機械学習ツール群であるMoleculeKitを開発した。
これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。
オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。
論文 参考訳(メタデータ) (2020-12-02T02:09:31Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。