論文の概要: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- arxiv url: http://arxiv.org/abs/2305.10688v1
- Date: Thu, 18 May 2023 03:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:00:13.355363
- Title: MolXPT: Wrapping Molecules with Text for Generative Pre-training
- Title(参考訳): MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング
- Authors: Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming
Zhang and Tie-Yan Liu
- Abstract要約: MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 141.0924452870112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative pre-trained Transformer (GPT) has demonstrates its great success
in natural language processing and related techniques have been adapted into
molecular modeling. Considering that text is the most important record for
scientific discovery, in this paper, we propose MolXPT, a unified language
model of text and molecules pre-trained on SMILES (a sequence representation of
molecules) wrapped by text. Briefly, we detect the molecule names in each
sequence and replace them to the corresponding SMILES. In this way, the SMILES
could leverage the information from surrounding text, and vice versa. The above
wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem
are all fed into a language model for pre-training. Experimental results
demonstrate that MolXPT outperforms strong baselines of molecular property
prediction on MoleculeNet, performs comparably to the best model in
text-molecule translation while using less than half of its parameters, and
enables zero-shot molecular generation without finetuning.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。
本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。
簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。
このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。
上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。
実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。
関連論文リスト
- Molecular Language Model as Multi-task Generator [30.738684922996466]
MolGenはトレーニング済みの分子言語モデルで、複数の世代タスクやドメインの知識を効果的に学習し、共有する。
実験により、MollGenはよく知られた分子生成ベンチマークデータセットで優れた性能を得ることができることが示された。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [73.21981365495604]
分子の化学構造とテキスト記述を共同で学習し,マルチモーダルな分子構造テキストモデル,MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - MolScribe: Robust Molecular Structure Recognition with Image-To-Graph
Generation [28.93523736883784]
MolScribeは、分子構造を構築するために、原子と結合と幾何学的レイアウトを明示的に予測する画像とグラフのモデルである。
MolScribeは以前のモデルよりも大幅に優れ、公開ベンチマークで76-93%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-28T03:03:45Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Fragment-based Sequential Translation for Molecular Optimization [23.152338167332374]
本稿では,分子断片を用いた分子生成のためのフレキシブルな編集パラダイムを提案する。
我々は変分オートエンコーダを用いて分子断片をコヒーレント潜在空間に符号化する。
そして、分子を編集して複雑な化学特性空間を探索する語彙として利用します。
論文 参考訳(メタデータ) (2021-10-26T21:20:54Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。