論文の概要: Keeping it Simple: Language Models can learn Complex Molecular
Distributions
- arxiv url: http://arxiv.org/abs/2112.03041v1
- Date: Mon, 6 Dec 2021 13:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:38:57.955076
- Title: Keeping it Simple: Language Models can learn Complex Molecular
Distributions
- Title(参考訳): シンプルに保つ: 言語モデルは複雑な分子分布を学習できる
- Authors: Daniel Flam-Shepherd, Kevin Zhu and Al\'an Aspuru-Guzik
- Abstract要約: 本稿では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習できることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models of molecules have grown immensely in popularity,
trained on relevant datasets, these models are used to search through chemical
space. The downstream utility of generative models for the inverse design of
novel functional compounds depends on their ability to learn a training
distribution of molecules. The most simple example is a language model that
takes the form of a recurrent neural network and generates molecules using a
string representation. More sophisticated are graph generative models, which
sequentially construct molecular graphs and typically achieve state of the art
results. However, recent work has shown that language models are more capable
than once thought, particularly in the low data regime. In this work, we
investigate the capacity of simple language models to learn distributions of
molecules. For this purpose, we introduce several challenging generative
modeling tasks by compiling especially complex distributions of molecules. On
each task, we evaluate the ability of language models as compared with two
widely used graph generative models. The results demonstrate that language
models are powerful generative models, capable of adeptly learning complex
molecular distributions -- and yield better performance than the graph models.
Language models can accurately generate: distributions of the highest scoring
penalized LogP molecules in ZINC15, multi-modal molecular distributions as well
as the largest molecules in PubChem.
- Abstract(参考訳): 分子の深い生成モデルの人気が高まっており、関連するデータセットに基づいて訓練され、これらのモデルは化学空間を探索するために使用される。
新規機能性化合物の逆設計のための生成モデルの下流の有用性は、分子の訓練分布を学ぶ能力に依存する。
最も単純な例は、繰り返しニューラルネットワークの形をとり、文字列表現を使って分子を生成する言語モデルである。
より洗練されたグラフ生成モデルでは、分子グラフを順次構築し、典型的には最先端の成果を得る。
しかし、最近の研究により、言語モデルは、特に低データ構造において、かつて考えられていたよりも有能であることが示されている。
本研究では,分子の分布を学習するための単純な言語モデルの能力について検討する。
そこで本研究では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
それぞれのタスクにおいて,2つのグラフ生成モデルと比較して,言語モデルの能力を評価する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習し、グラフモデルよりも優れた性能が得られることを示した。
言語モデルは正確に生成できる:亜鉛15における最高得点のペナル化logp分子の分布、多モード分子分布、およびプブシェム最大の分子。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning [11.862370962277938]
本稿では,タンパク質結合部位内で3D分子を生成するために,概念的にシンプルだが強力なアプローチを用いた新規な生成モデルBindGPTを提案する。
このような単純な概念的アプローチと事前学習とスケーリングが組み合わさって、現在の最高の特殊拡散モデルよりも同等以上の性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:10:50Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Probabilistic Generative Transformer Language models for Generative
Design of Molecules [10.412989388092084]
Generative Molecular Transformer (GMTransformer) は、分子の生成設計のための確率論的ニューラルネットワークモデルである。
本モデルはもともとテキスト処理のために開発された空白充填言語モデルに基づいて構築されている。
我々のモデルは、他のベースラインと比較して、高い斬新さと難解さを達成します。
論文 参考訳(メタデータ) (2022-09-20T01:51:57Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。