論文の概要: GP-MoLFormer: A Foundation Model For Molecular Generation
- arxiv url: http://arxiv.org/abs/2405.04912v1
- Date: Thu, 4 Apr 2024 16:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 15:40:48.842603
- Title: GP-MoLFormer: A Foundation Model For Molecular Generation
- Title(参考訳): GP-MoLFormer:分子生成の基礎モデル
- Authors: Jerret Ross, Brian Belgodere, Samuel C. Hoffman, Vijil Chenthamarakshan, Youssef Mroueh, Payel Das,
- Abstract要約: 本研究では,大規模ケミカルデータセット上での化学言語トランスフォーマーの訓練パラダイムを,本研究における生成タスクにまで拡張する。
具体的には, GP-MoLFormerを提案する。GP-MoLFormerは1.1B以上のケミカルSMILESをトレーニングした自己回帰分子文字列生成装置である。
GP-MoLFormerは、生成分子の数が100億の範囲にあり、参照集合が10億を超える場合でも、かなりの数の新規かつ有効でユニークなSMILESを生成することができる。
- 参考スコア(独自算出の注目度): 31.569161097828893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer-based models trained on large and general purpose datasets consisting of molecular strings have recently emerged as a powerful tool for successfully modeling various structure-property relations. Inspired by this success, we extend the paradigm of training chemical language transformers on large-scale chemical datasets to generative tasks in this work. Specifically, we propose GP-MoLFormer, an autoregressive molecular string generator that is trained on more than 1.1B chemical SMILES. GP-MoLFormer uses a 46.8M parameter transformer decoder model with linear attention and rotary positional encodings as the base architecture. We explore the utility of GP-MoLFormer in generating novel, valid, and unique SMILES. Impressively, we find GP-MoLFormer is able to generate a significant fraction of novel, valid, and unique SMILES even when the number of generated molecules is in the 10 billion range and the reference set is over a billion. We also find strong memorization of training data in GP-MoLFormer generations, which has so far remained unexplored for chemical language models. Our analyses reveal that training data memorization and novelty in generations are impacted by the quality of the training data; duplication bias in training data can enhance memorization at the cost of lowering novelty. We evaluate GP-MoLFormer's utility and compare it with that of existing baselines on three different tasks: de novo generation, scaffold-constrained molecular decoration, and unconstrained property-guided optimization. While the first two are handled with no additional training, we propose a parameter-efficient fine-tuning method for the last task, which uses property-ordered molecular pairs as input. We call this new approach pair-tuning. Our results show GP-MoLFormer performs better or comparable with baselines across all three tasks, demonstrating its general utility.
- Abstract(参考訳): 分子列からなる大規模かつ汎用的なデータセットに基づいてトレーニングされたトランスフォーマーベースモデルは、最近、様々な構造とプロパティの関係をモデル化する強力なツールとして登場した。
この成功に触発されて、我々は、大規模化学データセット上で化学言語トランスフォーマーを訓練するパラダイムを、本研究における生成タスクにまで拡張した。
具体的には, GP-MoLFormerを提案する。GP-MoLFormerは1.1B以上のケミカルSMILESをトレーニングした自己回帰分子文字列生成装置である。
GP-MoLFormerは46.8Mパラメータトランスフォーマーデコーダモデルを使用しており、ベースアーキテクチャは線形アテンションと回転位置エンコーディングである。
GP-MoLFormerの新規かつ有効かつユニークなSMILES生成における有用性について検討する。
印象的なことに、GP-MoLFormerは、生成分子数が100億の範囲にあり、参照集合が10億を超える場合でも、かなりの数の新規かつ有効でユニークなSMILESを生成することができる。
また, GP-MoLFormer 世代におけるトレーニングデータの強い記憶が, 化学言語モデルでは探索されていない。
本分析により, トレーニングデータの記憶と新規性は, トレーニングデータの質に左右され, 重複バイアスは, 新規性を低下させるコストで記憶を向上させることができることがわかった。
GP-MoLFormerの実用性を評価し,デノボ生成,足場拘束分子装飾,非拘束特性誘導最適化の3つのタスクにおける既存のベースラインと比較した。
最初の2つは、追加の訓練を伴わずに処理されるが、特性順序付き分子対を入力として使用する、最後のタスクに対するパラメータ効率の良い微調整法を提案する。
私たちはこの新しいアプローチをペアチューニングと呼んでいる。
この結果から,GP-MoLFormerは3つのタスクにまたがるベースラインと同等以上の性能を示し,その汎用性を実証した。
関連論文リスト
- Assessing Non-Nested Configurations of Multifidelity Machine Learning for Quantum-Chemical Properties [0.0]
量子化学(QC)特性に対するMFML(Multifidelity Machine Learning)は近年,強力な発展を遂げている。
本研究は,MFMLと最適化MFMLの2つの手法における非ネステッドトレーニングデータの利用を評価する。
論文 参考訳(メタデータ) (2024-07-24T08:34:08Z) - Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [50.756644656847165]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - LLamol: A Dynamic Multi-Conditional Generative Transformer for De Novo
Molecular Design [0.0]
LLamolはLLama 2アーキテクチャに基づいた単一の新しい生成トランスフォーマーモデルである。
モデルが最大4つの条件で単一条件および多条件の有機分子生成を順応的に処理できることを実証する。
より詳しくは,個別に,あるいは数値特性と組み合わせて,トークンシーケンスを条件付けに活用するモデルの能力について紹介する。
論文 参考訳(メタデータ) (2023-11-24T10:59:12Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - MolE: a molecular foundation model for drug discovery [0.2802437011072858]
MolEは分子基盤モデルであり、DeBERTaアーキテクチャを分子グラフに適応させる。
Therapeutic Data Commons に含まれる 22 の ADMET タスクのうち 9 つのタスクに対して, 微調整プリトレーニングした MolE が最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-11-03T21:22:05Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Improving Small Molecule Generation using Mutual Information Machine [0.0]
MolMIMは、小さな分子の薬物発見のための確率論的オートエンコーダである。
有効性, 特異性, 新規性の観点から, MolMIM の優れた世代を実証した。
次に,CMA-ES, ナイーブなブラックボックスと勾配自由探索アルゴリズムを, プロパティ誘導分子最適化のタスクとして, MolMIM の潜在空間上で利用する。
論文 参考訳(メタデータ) (2022-08-18T18:32:48Z) - Molecular Attributes Transfer from Non-Parallel Data [57.010952598634944]
分子最適化をスタイル伝達問題として定式化し、非並列データの2つのグループ間の内部差を自動的に学習できる新しい生成モデルを提案する。
毒性修飾と合成性向上という2つの分子最適化タスクの実験により,本モデルがいくつかの最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-11-30T06:10:22Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。