論文の概要: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- arxiv url: http://arxiv.org/abs/2305.10688v1
- Date: Thu, 18 May 2023 03:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:00:13.355363
- Title: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- Title(参考訳): MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング
- Authors: Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming
Zhang and Tie-Yan Liu
- Abstract要約: MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 141.0924452870112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative pre-trained Transformer (GPT) has demonstrates its great success
in natural language processing and related techniques have been adapted into
molecular modeling. Considering that text is the most important record for
scientific discovery, in this paper, we propose MolXPT, a unified language
model of text and molecules pre-trained on SMILES (a sequence representation of
molecules) wrapped by text. Briefly, we detect the molecule names in each
sequence and replace them to the corresponding SMILES. In this way, the SMILES
could leverage the information from surrounding text, and vice versa. The above
wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem
are all fed into a language model for pre-training. Experimental results
demonstrate that MolXPT outperforms strong baselines of molecular property
prediction on MoleculeNet, performs comparably to the best model in
text-molecule translation while using less than half of its parameters, and
enables zero-shot molecular generation without finetuning.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。
本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。
簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。
このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。
上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。
実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Chemical Language Model Linker: blending text and molecules with modular adapters [2.2667044928324747]
我々は、ChemLML(ChemLML)という、軽量なアダプタベースの戦略を提案する。
ChemLMLは2つの単一ドメインモデルをブレンドし、テキスト記述から条件付き分子生成を得る。
SMILESとSELFIESのChemLMLにおける分子表現の選択は,条件付き分子生成性能に強い影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-10-26T13:40:13Z) - Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model [77.50732023411811]
変換器を用いた拡散言語モデル(TransDLM)を用いたテキスト誘導多目的分子最適化手法を提案する。
TransDLMは標準化された化学命名法を分子の意味表現として利用し、プロパティ要求をテキスト記述に暗黙的に埋め込む。
提案手法は, 分子構造類似性を最適化し, ベンチマークデータセットの化学的特性を向上するための最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-10-17T14:30:27Z) - UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.51027934845928]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Text-Guided Molecule Generation with Diffusion Language Model [23.170313481324598]
拡散言語モデル(TGM-DLM)を用いたテキストガイド型分子生成法を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
我々は、TGM-DLMが、追加のデータリソースを必要とせずに、自動回帰モデルであるMolT5-Baseより優れていることを実証する。
論文 参考訳(メタデータ) (2024-02-20T14:29:02Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。