論文の概要: Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing
- arxiv url: http://arxiv.org/abs/2212.10789v1
- Date: Wed, 21 Dec 2022 06:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:36:19.388864
- Title: Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing
- Title(参考訳): テキスト検索と編集のためのマルチモーダル分子構造テキストモデル
- Authors: Shengchao Liu, Weili Nie, Chengpeng Wang, Jiarui Lu, Zhuoran Qiao,
Ling Liu, Jian Tang, Chaowei Xiao, Anima Anandkumar
- Abstract要約: 分子の化学構造とテキスト記述を共同で学習し,マルチモーダルな分子構造テキストモデル,MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
- 参考スコア(独自算出の注目度): 73.21981365495604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is increasing adoption of artificial intelligence in drug discovery.
However, existing works use machine learning to mainly utilize the chemical
structures of molecules yet ignore the vast textual knowledge available in
chemistry. Incorporating textual knowledge enables us to realize new drug
design objectives, adapt to text-based instructions, and predict complex
biological activities. We present a multi-modal molecule structure-text model,
MoleculeSTM, by jointly learning molecule's chemical structures and textual
descriptions via a contrastive learning strategy. To train MoleculeSTM, we
construct the largest multi-modal dataset to date, namely PubChemSTM, with over
280K chemical structure-text pairs. To demonstrate the effectiveness and
utility of MoleculeSTM, we design two challenging zero-shot tasks based on text
instructions, including structure-text retrieval and molecule editing.
MoleculeSTM possesses two main properties: open vocabulary and compositionality
via natural language. In experiments, MoleculeSTM obtains the state-of-the-art
generalization ability to novel biochemical concepts across various benchmarks.
- Abstract(参考訳): 薬物発見における人工知能の採用が増加している。
しかし、既存の作品は機械学習を使って分子の化学構造を主に利用するが、化学で得られる膨大な知識を無視している。
テキスト知識を取り入れることで,新しい薬物設計目標の実現,テキストに基づく指示への適応,複雑な生物活動の予測が可能になる。
本稿では,分子の化学構造とテキスト記述をコントラスト的学習戦略で学習することにより,マルチモーダル分子構造テキストモデルcstmを提案する。
moleculestmをトレーニングするために、これまでで最大のマルチモーダルデータセット、すなわち280k以上の化学構造テキストペアを持つpubchemstmを構築した。
MoleculeSTMの有効性と有用性を示すために、構造テキスト検索や分子編集を含むテキスト命令に基づく2つの難易度ゼロショットタスクを設計する。
MoleculeSTMには、オープン語彙と自然言語による構成性という2つの主要な性質がある。
実験において、分子STMは様々なベンチマークで新しい生化学的概念を創出する最先端の一般化能力を得る。
関連論文リスト
- Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - ChemLLM: A Chemical Large Language Model [50.32558290635367]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
ChemLLMは化学に特化した最初の大規模言語モデルである。
ChemLLMは化学の3つの主要なタスク全てでGPT-3.5を破る。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Fragment-based Sequential Translation for Molecular Optimization [23.152338167332374]
本稿では,分子断片を用いた分子生成のためのフレキシブルな編集パラダイムを提案する。
我々は変分オートエンコーダを用いて分子断片をコヒーレント潜在空間に符号化する。
そして、分子を編集して複雑な化学特性空間を探索する語彙として利用します。
論文 参考訳(メタデータ) (2021-10-26T21:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。