論文の概要: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- arxiv url: http://arxiv.org/abs/2305.10688v1
- Date: Thu, 18 May 2023 03:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:00:13.355363
- Title: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- Title(参考訳): MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング
- Authors: Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming
Zhang and Tie-Yan Liu
- Abstract要約: MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 141.0924452870112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative pre-trained Transformer (GPT) has demonstrates its great success
in natural language processing and related techniques have been adapted into
molecular modeling. Considering that text is the most important record for
scientific discovery, in this paper, we propose MolXPT, a unified language
model of text and molecules pre-trained on SMILES (a sequence representation of
molecules) wrapped by text. Briefly, we detect the molecule names in each
sequence and replace them to the corresponding SMILES. In this way, the SMILES
could leverage the information from surrounding text, and vice versa. The above
wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem
are all fed into a language model for pre-training. Experimental results
demonstrate that MolXPT outperforms strong baselines of molecular property
prediction on MoleculeNet, performs comparably to the best model in
text-molecule translation while using less than half of its parameters, and
enables zero-shot molecular generation without finetuning.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。
本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。
簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。
このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。
上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。
実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。
関連論文リスト
- LDMol: Text-Conditioned Molecule Diffusion Model Leveraging Chemically Informative Latent Space [55.5427001668863]
本稿では, LDMol と呼ばれる新しい潜伏拡散モデルを提案する。
具体的には、化学情報的特徴空間を生成する分子エンコーダ、拡散変換器(DiT)を用いた自然言語条件の潜伏拡散モデル、および分子回帰のための自己回帰デコーダの3つの構成要素から構成される。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [50.756644656847165]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Text-Guided Molecule Generation with Diffusion Language Model [23.170313481324598]
拡散言語モデル(TGM-DLM)を用いたテキストガイド型分子生成法を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
我々は、TGM-DLMが、追加のデータリソースを必要とせずに、自動回帰モデルであるMolT5-Baseより優れていることを実証する。
論文 参考訳(メタデータ) (2024-02-20T14:29:02Z) - GPT-MolBERTa: GPT Molecular Features Language Model for molecular
property prediction [6.349503549199403]
GPT-MolBERTaは自己教師付き大規模言語モデル(LLM)であり、分子の詳細なテキスト記述を用いてそれらの特性を予測する。
326000分子のテキストに基づく記述はChatGPTを用いて収集され、LLMを訓練して分子の表現を学習した。
実験により, GPT-MolBERTaは様々な分子特性のベンチマークで良好に動作し, 回帰タスクにおける技術性能の状況に近づいた。
論文 参考訳(メタデータ) (2023-09-20T17:21:43Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - MolScribe: Robust Molecular Structure Recognition with Image-To-Graph
Generation [28.93523736883784]
MolScribeは、分子構造を構築するために、原子と結合と幾何学的レイアウトを明示的に予測する画像とグラフのモデルである。
MolScribeは以前のモデルよりも大幅に優れ、公開ベンチマークで76-93%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-28T03:03:45Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。