論文の概要: MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning
- arxiv url: http://arxiv.org/abs/2212.10614v2
- Date: Fri, 22 Sep 2023 18:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 04:22:24.837850
- Title: MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning
- Title(参考訳): molcpt:分子表現学習を一般化する分子連続プロンプトチューニング
- Authors: Cameron Diao, Kaixiong Zhou, Zirui Liu, Xiao Huang, Xia Hu
- Abstract要約: 分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
- 参考スコア(独自算出の注目度): 77.31492888819935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular representation learning is crucial for the problem of molecular
property prediction, where graph neural networks (GNNs) serve as an effective
solution due to their structure modeling capabilities. Since labeled data is
often scarce and expensive to obtain, it is a great challenge for GNNs to
generalize in the extensive molecular space. Recently, the training paradigm of
"pre-train, fine-tune" has been leveraged to improve the generalization
capabilities of GNNs. It uses self-supervised information to pre-train the GNN,
and then performs fine-tuning to optimize the downstream task with just a few
labels. However, pre-training does not always yield statistically significant
improvement, especially for self-supervised learning with random structural
masking. In fact, the molecular structure is characterized by motif subgraphs,
which are frequently occurring and influence molecular properties. To leverage
the task-related motifs, we propose a novel paradigm of "pre-train, prompt,
fine-tune" for molecular representation learning, named molecule continuous
prompt tuning (MolCPT). MolCPT defines a motif prompting function that uses the
pre-trained model to project the standalone input into an expressive prompt.
The prompt effectively augments the molecular graph with meaningful motifs in
the continuous representation space; this provides more structural patterns to
aid the downstream classifier in identifying molecular properties. Extensive
experiments on several benchmark datasets show that MolCPT efficiently
generalizes pre-trained GNNs for molecular property prediction, with or without
a few fine-tuning steps.
- Abstract(参考訳): 分子表現学習は、グラフニューラルネットワーク(GNN)がそれらの構造モデリング能力のために効果的な解となる、分子特性予測の問題に不可欠である。
ラベル付きデータは入手が困難で費用がかかることが多いため、GNNが広範な分子空間で一般化することは大きな課題である。
近年、GNNの一般化能力向上のために「事前訓練、微調整」の訓練パラダイムが活用されている。
自己教師付き情報を使ってgnnを事前学習し、数個のラベルで下流タスクを最適化するための微調整を行う。
しかし、特にランダムな構造的マスキングを伴う自己教師付き学習において、事前学習は統計的に有意な改善をもたらすとは限らない。
実際、分子構造はモチーフサブグラフによって特徴づけられ、しばしば発生し、分子特性に影響を及ぼす。
課題関連モチーフを活用するために,分子表現学習のための"pre-train, prompt, fine-tune"という新しいパラダイム,分子連続的プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
このプロンプトは、連続表現空間において有意義なモチーフを持つ分子グラフを効果的に強化する。
いくつかのベンチマークデータセットの大規模な実験により、MollCPTは分子特性予測のために学習済みのGNNを数ステップで効率的に一般化することが示された。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Molecular Graph Representation Learning via Structural Similarity Information [11.38130169319915]
我々は新しい分子グラフ表現学習法である textbf Structure similarity Motif GNN (MSSM-GNN) を紹介する。
特に,分子間の類似性を定量的に表現するために,グラフカーネルアルゴリズムを利用した特殊設計グラフを提案する。
我々はGNNを用いて分子グラフから特徴表現を学習し、追加の分子表現情報を組み込むことで特性予測の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-09-13T06:59:10Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - KPGT: Knowledge-Guided Pre-training of Graph Transformer for Molecular
Property Prediction [13.55018269009361]
我々は、分子グラフ表現学習のための新しい自己教師付き学習フレームワーク、KPGT(Knowledge-guided Pre-training of Graph Transformer)を紹介する。
KPGTは、いくつかの分子特性予測タスクにおける最先端の手法よりも優れた性能を提供することができる。
論文 参考訳(メタデータ) (2022-06-02T08:22:14Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。