論文の概要: Language models can generate molecules, materials, and protein binding
sites directly in three dimensions as XYZ, CIF, and PDB files
- arxiv url: http://arxiv.org/abs/2305.05708v1
- Date: Tue, 9 May 2023 18:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 15:44:29.506680
- Title: Language models can generate molecules, materials, and protein binding
sites directly in three dimensions as XYZ, CIF, and PDB files
- Title(参考訳): 言語モデルは、XYZ、CIF、PDBファイルとして3次元で分子、材料、タンパク質結合部位を直接生成できる
- Authors: Daniel Flam-Shepherd and Al\'an Aspuru-Guzik
- Abstract要約: 言語モデルは分子設計の強力なツールである。
言語モデルが3次元の新規かつ有効な構造を生成する方法を示す。
化学ファイルシーケンスで訓練されているにもかかわらず、言語モデルは最先端のモデルに匹敵するパフォーマンスを保っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are powerful tools for molecular design. Currently, the
dominant paradigm is to parse molecular graphs into linear string
representations that can easily be trained on. This approach has been very
successful, however, it is limited to chemical structures that can be
completely represented by a graph -- like organic molecules -- while materials
and biomolecular structures like protein binding sites require a more complete
representation that includes the relative positioning of their atoms in space.
In this work, we show how language models, without any architecture
modifications, trained using next-token prediction -- can generate novel and
valid structures in three dimensions from various substantially different
distributions of chemical structures. In particular, we demonstrate that
language models trained directly on sequences derived directly from chemical
file formats like XYZ files, Crystallographic Information files (CIFs), or
Protein Data Bank files (PDBs) can directly generate molecules, crystals, and
protein binding sites in three dimensions. Furthermore, despite being trained
on chemical file sequences -- language models still achieve performance
comparable to state-of-the-art models that use graph and graph-derived string
representations, as well as other domain-specific 3D generative models. In
doing so, we demonstrate that it is not necessary to use simplified molecular
representations to train chemical language models -- that they are powerful
generative models capable of directly exploring chemical space in three
dimensions for very different structures.
- Abstract(参考訳): 言語モデルは分子設計の強力なツールである。
現在、主要なパラダイムは、容易に訓練できる線形文字列表現に分子グラフを解析することである。
このアプローチは非常に成功しているが、有機分子のようなグラフで完全に表現できる化学構造に限られている一方、タンパク質結合部位のような物質や生体分子構造は、宇宙における原子の相対的な位置を含むより完全な表現を必要とする。
In this work, we show how language models, without any architecture modifications, trained using next-token prediction -- can generate novel and valid structures in three dimensions from various substantially different distributions of chemical structures. In particular, we demonstrate that language models trained directly on sequences derived directly from chemical file formats like XYZ files, Crystallographic Information files (CIFs), or Protein Data Bank files (PDBs) can directly generate molecules, crystals, and protein binding sites in three dimensions. Furthermore, despite being trained on chemical file sequences -- language models still achieve performance comparable to state-of-the-art models that use graph and graph-derived string representations, as well as other domain-specific 3D generative models.
このような場合、単純化された分子表現を用いて化学言語モデルを訓練する必要はなく、非常に異なる構造のために3次元の化学空間を直接探索できる強力な生成モデルであることを示す。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - 3D-MolT5: Towards Unified 3D Molecule-Text Modeling with 3D Molecular Tokenization [41.07090635630771]
3D-MolT5は1次元分子配列と3次元分子構造の両方をモデル化する統合されたフレームワークである。
鍵となる革新は、細粒度の3次元部分構造表現を特別な3次元トークン語彙にマッピングする方法論にある。
提案した3D-MolT5は,分子特性予測,分子キャプション,テキストベースの分子生成タスクにおいて,既存の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-09T14:20:55Z) - BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning [11.862370962277938]
本稿では,タンパク質結合部位内で3D分子を生成するために,概念的にシンプルだが強力なアプローチを用いた新規な生成モデルBindGPTを提案する。
このような単純な概念的アプローチと事前学習とスケーリングが組み合わさって、現在の最高の特殊拡散モデルよりも同等以上の性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-06-06T02:10:50Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Generation of 3D Molecules in Pockets via Language Model [0.0]
逐次線記法(SMILES)やグラフ表現に基づく分子の生成モデルは、構造に基づく薬物設計の分野への関心が高まっている。
本稿では,言語モデルと幾何学的深層学習技術を組み合わせたポケットベースの3次元分子生成手法であるLingo3DMolを紹介する。
論文 参考訳(メタデータ) (2023-05-17T11:31:06Z) - An Equivariant Generative Framework for Molecular Graph-Structure
Co-Design [54.92529253182004]
分子グラフ構造アンダーラインCo設計のための機械学習ベースの生成フレームワークであるMollCodeを提案する。
MolCodeでは、3D幾何情報によって分子2Dグラフの生成が促進され、それによって分子3D構造の予測が導かれる。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-04-12T13:34:22Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - Keeping it Simple: Language Models can learn Complex Molecular
Distributions [0.0]
本稿では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習できることを示した。
論文 参考訳(メタデータ) (2021-12-06T13:40:58Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。