論文の概要: Adjustable Molecular Representation for Unified Pre-training Strategy
- arxiv url: http://arxiv.org/abs/2401.06166v1
- Date: Thu, 28 Dec 2023 10:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 12:52:01.508162
- Title: Adjustable Molecular Representation for Unified Pre-training Strategy
- Title(参考訳): 統一事前学習戦略のための調整可能な分子表現
- Authors: Yan Ding, Hao Cheng, Zeliang Ye, Ruyi Feng, Zhongze Gu
- Abstract要約: 我々は,統一事前学習戦略のための適応可能な分子表現のための大規模分子モデルAdaMRを提案する。
AdaMRは粒度調整可能な分子エンコーダを使用し、原子とサブ構造の両方で分子表現を学ぶ。
- 参考スコア(独自算出の注目度): 6.5368865085435885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a new large-scale molecular model, named AdaMR, which stands for
Adjustable Molecular Representation for Unified Pre-training Strategy. Unlike
recent large-scale molecular models that use a single molecular encoding, AdaMR
employs a granularity-adjustable molecular encoder, learning molecular
representations at both the atomic and substructure levels. For the
pre-training process, we designed a task for molecular canonicalization, which
involves transforming ltiple generic molecular representations into canonical
representations. By adjusting the granularity of molecular encoding, the
trained model can improve the effects on multiple downstream tasks, such as
model attribute prediction and molecule generation. Substructure-level
molecular representation retains information of specific atom groups or
arrangements that determine chemical properties and have similar functions,
which is beneficial for tasks like property prediction. Meanwhile, atomic-level
representation, combined with generative molecular canonicalization
pre-training tasks, enhances the validity, novelty, and uniqueness in
generative tasks. These features of AdaMR demonstrate its strong performance in
numerous downstream tasks. We use different molecular properties prediction
tasks on six different datasets on MoleculeNet and two generative tasks on
ZINC250K dataset to evaluate our proposed molecular encoding and pre-training
methods, and obtain state-of-the-art (SOTA) results on five of these tasks.
- Abstract(参考訳): 我々は,統一事前学習戦略のための適応可能な分子表現のための大規模分子モデルAdaMRを提案する。
単一の分子エンコーディングを使用する最近の大規模分子モデルとは異なり、AdaMRは粒度調整可能な分子エンコーダを使用し、原子とサブ構造の両方で分子表現を学ぶ。
事前学習プロセスでは, 分子の正準化のためのタスクを設計し, 汎用分子表現を正準表現に変換する。
分子エンコーディングの粒度の調整により、モデル属性予測や分子生成など、複数の下流タスクへの影響を改善することができる。
サブ構造レベルの分子表現は、化学的性質を決定し、同様の機能を持つ特定の原子群や配列の情報を保持する。
一方、原子レベルの表現は、生成的分子正準化事前訓練タスクと組み合わされ、生成的タスクの妥当性、新規性、特異性を高める。
これらのAdaMRの特徴は、多くの下流タスクでその強力なパフォーマンスを示している。
ZINC250Kデータセット上の6つの異なるデータセット上の分子特性予測タスクと2つの生成タスクを用いて、提案した分子エンコーディングおよび事前学習手法を評価し、これらのタスクのうち5つのタスクでSOTA(State-of-the-art)結果を得る。
関連論文リスト
- MultiModal-Learning for Predicting Molecular Properties: A Framework
Based on Image and Graph Structures [2.792611146246963]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Improving Molecular Pretraining with Complementary Featurizations [20.86159731100242]
分子プレトレーニング(英: molecular pretraining)は、計算化学と薬物発見における様々な課題を解決するためのパラダイムである。
化学情報を異なる方法で伝達できることが示される。
我々は, 簡易で効果的な分子事前学習フレームワーク(MOCO)を提案する。
論文 参考訳(メタデータ) (2022-09-29T21:11:09Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。