論文の概要: A Systematic Survey of Chemical Pre-trained Models
- arxiv url: http://arxiv.org/abs/2210.16484v3
- Date: Thu, 27 Apr 2023 03:30:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 17:06:11.129800
- Title: A Systematic Survey of Chemical Pre-trained Models
- Title(参考訳): 化学予習モデルに関する体系的調査
- Authors: Jun Xia, Yanqiao Zhu, Yuanqi Du, Stan Z.Li
- Abstract要約: ディープニューラルネットワーク(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。
この問題を緩和するため、分子事前学習モデル(CPM)に多大な努力が注がれている。
CPMは、大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される。
- 参考スコア(独自算出の注目度): 38.57023440288189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has achieved remarkable success in learning representations for
molecules, which is crucial for various biochemical applications, ranging from
property prediction to drug design. However, training Deep Neural Networks
(DNNs) from scratch often requires abundant labeled molecules, which are
expensive to acquire in the real world. To alleviate this issue, tremendous
efforts have been devoted to Molecular Pre-trained Models (CPMs), where DNNs
are pre-trained using large-scale unlabeled molecular databases and then
fine-tuned over specific downstream tasks. Despite the prosperity, there lacks
a systematic review of this fast-growing field. In this paper, we present the
first survey that summarizes the current progress of CPMs. We first highlight
the limitations of training molecular representation models from scratch to
motivate CPM studies. Next, we systematically review recent advances on this
topic from several key perspectives, including molecular descriptors, encoder
architectures, pre-training strategies, and applications. We also highlight the
challenges and promising avenues for future research, providing a useful
resource for both machine learning and scientific communities.
- Abstract(参考訳): 深層学習は分子の表現の学習において著しく成功し、特性予測から薬物設計まで様々な生化学応用に不可欠である。
しかし、Deep Neural Networks(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。
この問題を軽減するために、DNNは大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される分子事前訓練モデル(CPM)に多大な努力が払われている。
繁栄にもかかわらず、この急速に成長する分野の体系的なレビューがない。
本稿では,CPMの現況をまとめた第1回調査について述べる。
まず、分子表現モデルをスクラッチからモチベートするCPM研究の限界を強調した。
次に, 分子ディスクリプタ, エンコーダアーキテクチャ, 事前学習戦略, 応用など, このトピックの最近の進歩を概観する。
また、今後の研究の課題と将来性を強調し、機械学習と科学コミュニティの両方に有用なリソースを提供します。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolCAP: Molecular Chemical reActivity pretraining and
prompted-finetuning enhanced molecular representation learning [3.179128580341411]
MolCAPは、化学反応性(IMR)知識に基づくグラフ事前学習トランスフォーマーであり、微調整を誘導する。
MolCAPによって推進され、基礎的なグラフニューラルネットワークでさえ、以前のモデルを上回る驚くべきパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2023-06-13T13:48:06Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Improving Molecular Pretraining with Complementary Featurizations [20.86159731100242]
分子プレトレーニング(英: molecular pretraining)は、計算化学と薬物発見における様々な課題を解決するためのパラダイムである。
化学情報を異なる方法で伝達できることが示される。
我々は, 簡易で効果的な分子事前学習フレームワーク(MOCO)を提案する。
論文 参考訳(メタデータ) (2022-09-29T21:11:09Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - KPGT: Knowledge-Guided Pre-training of Graph Transformer for Molecular
Property Prediction [13.55018269009361]
我々は、分子グラフ表現学習のための新しい自己教師付き学習フレームワーク、KPGT(Knowledge-guided Pre-training of Graph Transformer)を紹介する。
KPGTは、いくつかの分子特性予測タスクにおける最先端の手法よりも優れた性能を提供することができる。
論文 参考訳(メタデータ) (2022-06-02T08:22:14Z) - Generative Enriched Sequential Learning (ESL) Approach for Molecular
Design via Augmented Domain Knowledge [1.4410716345002657]
生成機械学習技術は、分子指紋表現に基づく新しい化学構造を生成することができる。
教師付きドメイン知識の欠如は、学習手順がトレーニングデータに見られる一般的な分子に相対的に偏っていることを誤解させる可能性がある。
この欠点は、例えば薬物類似度スコア(QED)の定量的推定など、ドメイン知識でトレーニングデータを増強することで軽減した。
論文 参考訳(メタデータ) (2022-04-05T20:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。