論文の概要: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- arxiv url: http://arxiv.org/abs/2305.10688v1
- Date: Thu, 18 May 2023 03:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:00:13.355363
- Title: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- Title(参考訳): MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング
- Authors: Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming
Zhang and Tie-Yan Liu
- Abstract要約: MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 141.0924452870112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative pre-trained Transformer (GPT) has demonstrates its great success
in natural language processing and related techniques have been adapted into
molecular modeling. Considering that text is the most important record for
scientific discovery, in this paper, we propose MolXPT, a unified language
model of text and molecules pre-trained on SMILES (a sequence representation of
molecules) wrapped by text. Briefly, we detect the molecule names in each
sequence and replace them to the corresponding SMILES. In this way, the SMILES
could leverage the information from surrounding text, and vice versa. The above
wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem
are all fed into a language model for pre-training. Experimental results
demonstrate that MolXPT outperforms strong baselines of molecular property
prediction on MoleculeNet, performs comparably to the best model in
text-molecule translation while using less than half of its parameters, and
enables zero-shot molecular generation without finetuning.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。
本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。
簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。
このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。
上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。
実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。
関連論文リスト
- Text-Guided Molecule Generation with Diffusion Language Model [23.170313481324598]
拡散言語モデル(TGM-DLM)を用いたテキストガイド型分子生成法を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
我々は、TGM-DLMが、追加のデータリソースを必要とせずに、自動回帰モデルであるMolT5-Baseより優れていることを実証する。
論文 参考訳(メタデータ) (2024-02-20T14:29:02Z) - GPT-MolBERTa: GPT Molecular Features Language Model for molecular
property prediction [6.349503549199403]
GPT-MolBERTaは自己教師付き大規模言語モデル(LLM)であり、分子の詳細なテキスト記述を用いてそれらの特性を予測する。
326000分子のテキストに基づく記述はChatGPTを用いて収集され、LLMを訓練して分子の表現を学習した。
実験により, GPT-MolBERTaは様々な分子特性のベンチマークで良好に動作し, 回帰タスクにおける技術性能の状況に近づいた。
論文 参考訳(メタデータ) (2023-09-20T17:21:43Z) - Empowering Molecule Discovery for Molecule-Caption Translation with
Large Language Models: A ChatGPT Perspective [37.87910278902631]
本稿では,分子キャプション変換のための新しいフレームワーク(textbfMolReGPT)を提案する。
分子理解とテキストベースの分子生成を含む分子キャプション変換によるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - MolScribe: Robust Molecular Structure Recognition with Image-To-Graph
Generation [28.93523736883784]
MolScribeは、分子構造を構築するために、原子と結合と幾何学的レイアウトを明示的に予測する画像とグラフのモデルである。
MolScribeは以前のモデルよりも大幅に優れ、公開ベンチマークで76-93%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-28T03:03:45Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。