論文の概要: Data-Efficient Graph Grammar Learning for Molecular Generation
- arxiv url: http://arxiv.org/abs/2203.08031v1
- Date: Tue, 15 Mar 2022 16:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 19:39:47.074345
- Title: Data-Efficient Graph Grammar Learning for Molecular Generation
- Title(参考訳): データ効率の良いグラフ文法学習による分子生成
- Authors: Minghao Guo, Veronika Thost, Beichen Li, Payel Das, Jie Chen, Wojciech
Matusik
- Abstract要約: 本稿では,一般的なベンチマークよりも小さなサイズのデータセットから学習可能な,データ効率のよい生成モデルを提案する。
学習したグラフ文法は、3つのモノマーデータセットに対して高品質な分子を生成するための最先端の結果をもたらす。
また, 本手法は, トレーニングサンプル117ドルで, 難易度の高いポリマー生成タスクにおいて, 顕著な性能を実現している。
- 参考スコア(独自算出の注目度): 41.936515793383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of molecular generation has received significant attention
recently. Existing methods are typically based on deep neural networks and
require training on large datasets with tens of thousands of samples. In
practice, however, the size of class-specific chemical datasets is usually
limited (e.g., dozens of samples) due to labor-intensive experimentation and
data collection. This presents a considerable challenge for the deep learning
generative models to comprehensively describe the molecular design space.
Another major challenge is to generate only physically synthesizable molecules.
This is a non-trivial task for neural network-based generative models since the
relevant chemical knowledge can only be extracted and generalized from the
limited training data. In this work, we propose a data-efficient generative
model that can be learned from datasets with orders of magnitude smaller sizes
than common benchmarks. At the heart of this method is a learnable graph
grammar that generates molecules from a sequence of production rules. Without
any human assistance, these production rules are automatically constructed from
training data. Furthermore, additional chemical knowledge can be incorporated
in the model by further grammar optimization. Our learned graph grammar yields
state-of-the-art results on generating high-quality molecules for three monomer
datasets that contain only ${\sim}20$ samples each. Our approach also achieves
remarkable performance in a challenging polymer generation task with only $117$
training samples and is competitive against existing methods using $81$k data
points. Code is available at https://github.com/gmh14/data_efficient_grammar.
- Abstract(参考訳): 分子生成の問題は近年大きな注目を集めている。
既存の手法は通常、ディープニューラルネットワークに基づいており、数十万のサンプルを持つ大規模データセットのトレーニングを必要とする。
しかし実際には、労働集約的な実験とデータ収集のため、クラス固有の化学データセットのサイズは通常制限されている(例:数十のサンプル)。
これは、分子設計空間を包括的に記述する深層学習生成モデルにとって大きな課題である。
もう一つの大きな課題は、物理的に合成可能な分子のみを生成することである。
これはニューラルネットワークに基づく生成モデルにとって非自明なタスクであり、関連する化学知識は限られたトレーニングデータからのみ抽出し、一般化することができる。
本研究では、一般的なベンチマークよりも桁違いに小さいデータセットから学習できるデータ効率のよい生成モデルを提案する。
この手法の核心は、一連の生産規則から分子を生成する学習可能なグラフ文法である。
人間の助けがなければ、これらの生産ルールはトレーニングデータから自動的に構築される。
さらに、さらなる文法最適化により、追加の化学知識をモデルに組み込むことができる。
我々の学習したグラフ文法は、それぞれ${\sim}20$のサンプルのみを含む3つのモノマーデータセットに対して、高品質な分子を生成するための最先端の結果をもたらす。
提案手法は, トレーニングサンプルが117ドルしかなく, 難易度の高いポリマー生成タスクにおいて, 811ドルのデータポイントを用いた既存手法と競合し, 優れた性能を実現している。
コードはhttps://github.com/gmh14/data_ efficient_grammarで入手できる。
関連論文リスト
- Instruction-Based Molecular Graph Generation with Unified Text-Graph Diffusion Model [22.368332915420606]
Unified Text-Graph Diffusion Model (UTGDiff) は命令から分子グラフを生成するフレームワークである。
UTGDiffは、事前訓練された言語モデルから派生したデノナイジングネットワークとして統一されたテキストグラフ変換器を備えている。
実験の結果,UTGDiffは命令ベース分子の生成と編集に関わるタスクにおいて,シーケンスベースベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-19T11:09:15Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Hierarchical Grammar-Induced Geometry for Data-Efficient Molecular
Property Prediction [37.443491843178315]
学習可能な階層型分子文法を用いたデータ効率特性予測器を提案する。
特性予測は文法誘発幾何上のグラフニューラル拡散を用いて行われる。
極めて限られたデータを持つ場合に有効性を示す、詳細なアブレーション研究とソリューションのさらなる分析を含む。
論文 参考訳(メタデータ) (2023-09-04T19:59:51Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Keeping it Simple: Language Models can learn Complex Molecular
Distributions [0.0]
本稿では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習できることを示した。
論文 参考訳(メタデータ) (2021-12-06T13:40:58Z) - Learn molecular representations from large-scale unlabeled molecules for
drug discovery [19.222413268610808]
分子プレトレーニンググラフベースのディープラーニングフレームワークmpgは、大規模なラベルなし分子から分子表現を頼りにする。
molgnetは、解釈可能な表現を生み出すために貴重な化学的洞察を捉えることができる。
MPGは、薬物発見パイプラインにおける新しいアプローチになることを約束している。
論文 参考訳(メタデータ) (2020-12-21T08:21:49Z) - Advanced Graph and Sequence Neural Networks for Molecular Property
Prediction and Drug Discovery [53.00288162642151]
計算モデルや分子表現にまたがる包括的な機械学習ツール群であるMoleculeKitを開発した。
これらの表現に基づいて構築されたMoeculeKitには、ディープラーニングと、グラフとシーケンスデータのための従来の機械学習方法の両方が含まれている。
オンラインおよびオフラインの抗生物質発見と分子特性予測のタスクの結果から、MoneculeKitは以前の方法よりも一貫した改善を実現していることがわかる。
論文 参考訳(メタデータ) (2020-12-02T02:09:31Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。