論文の概要: Adjustable Molecular Representation for Unified Pre-training Strategy
- arxiv url: http://arxiv.org/abs/2401.06166v1
- Date: Thu, 28 Dec 2023 10:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:52:01.508162
- Title: Adjustable Molecular Representation for Unified Pre-training Strategy
- Title(参考訳): 統一事前学習戦略のための調整可能な分子表現
- Authors: Yan Ding, Hao Cheng, Zeliang Ye, Ruyi Feng, Zhongze Gu
- Abstract要約: 我々は,統一事前学習戦略のための適応可能な分子表現のための大規模分子モデルAdaMRを提案する。
AdaMRは粒度調整可能な分子エンコーダを使用し、原子とサブ構造の両方で分子表現を学ぶ。
- 参考スコア(独自算出の注目度): 6.5368865085435885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a new large-scale molecular model, named AdaMR, which stands for
Adjustable Molecular Representation for Unified Pre-training Strategy. Unlike
recent large-scale molecular models that use a single molecular encoding, AdaMR
employs a granularity-adjustable molecular encoder, learning molecular
representations at both the atomic and substructure levels. For the
pre-training process, we designed a task for molecular canonicalization, which
involves transforming ltiple generic molecular representations into canonical
representations. By adjusting the granularity of molecular encoding, the
trained model can improve the effects on multiple downstream tasks, such as
model attribute prediction and molecule generation. Substructure-level
molecular representation retains information of specific atom groups or
arrangements that determine chemical properties and have similar functions,
which is beneficial for tasks like property prediction. Meanwhile, atomic-level
representation, combined with generative molecular canonicalization
pre-training tasks, enhances the validity, novelty, and uniqueness in
generative tasks. These features of AdaMR demonstrate its strong performance in
numerous downstream tasks. We use different molecular properties prediction
tasks on six different datasets on MoleculeNet and two generative tasks on
ZINC250K dataset to evaluate our proposed molecular encoding and pre-training
methods, and obtain state-of-the-art (SOTA) results on five of these tasks.
- Abstract(参考訳): 我々は,統一事前学習戦略のための適応可能な分子表現のための大規模分子モデルAdaMRを提案する。
単一の分子エンコーディングを使用する最近の大規模分子モデルとは異なり、AdaMRは粒度調整可能な分子エンコーダを使用し、原子とサブ構造の両方で分子表現を学ぶ。
事前学習プロセスでは, 分子の正準化のためのタスクを設計し, 汎用分子表現を正準表現に変換する。
分子エンコーディングの粒度の調整により、モデル属性予測や分子生成など、複数の下流タスクへの影響を改善することができる。
サブ構造レベルの分子表現は、化学的性質を決定し、同様の機能を持つ特定の原子群や配列の情報を保持する。
一方、原子レベルの表現は、生成的分子正準化事前訓練タスクと組み合わされ、生成的タスクの妥当性、新規性、特異性を高める。
これらのAdaMRの特徴は、多くの下流タスクでその強力なパフォーマンスを示している。
ZINC250Kデータセット上の6つの異なるデータセット上の分子特性予測タスクと2つの生成タスクを用いて、提案した分子エンコーディングおよび事前学習手法を評価し、これらのタスクのうち5つのタスクでSOTA(State-of-the-art)結果を得る。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Improving Molecular Properties Prediction Through Latent Space Fusion [9.912768918657354]
本稿では,最先端の化学モデルから導出した潜在空間を組み合わせた多視点手法を提案する。
分子構造をグラフとして表現するMHG-GNNの埋め込みと、化学言語に根ざしたMoLFormerの埋め込みである。
本稿では,既存の最先端手法と比較して,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-20T20:29:32Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Improving Molecular Pretraining with Complementary Featurizations [20.86159731100242]
分子プレトレーニング(英: molecular pretraining)は、計算化学と薬物発見における様々な課題を解決するためのパラダイムである。
化学情報を異なる方法で伝達できることが示される。
我々は, 簡易で効果的な分子事前学習フレームワーク(MOCO)を提案する。
論文 参考訳(メタデータ) (2022-09-29T21:11:09Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Molecular Attributes Transfer from Non-Parallel Data [57.010952598634944]
分子最適化をスタイル伝達問題として定式化し、非並列データの2つのグループ間の内部差を自動的に学習できる新しい生成モデルを提案する。
毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-11-30T06:10:22Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。