論文の概要: Translation between Molecules and Natural Language
- arxiv url: http://arxiv.org/abs/2204.11817v2
- Date: Tue, 26 Apr 2022 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:25:31.096944
- Title: Translation between Molecules and Natural Language
- Title(参考訳): 分子と自然言語間の翻訳
- Authors: Carl Edwards, Tuan Lai, Kevin Ros, Garrett Honke, Heng Ji
- Abstract要約: 本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
- 参考スコア(独自算出の注目度): 43.518805086280466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint representations between images and text have been deeply investigated
in the literature. In computer vision, the benefits of incorporating natural
language have become clear for enabling semantic-level control of images. In
this work, we present $\textbf{MolT5}-$a self-supervised learning framework for
pretraining models on a vast amount of unlabeled natural language text and
molecule strings. $\textbf{MolT5}$ allows for new, useful, and challenging
analogs of traditional vision-language tasks, such as molecule captioning and
text-based de novo molecule generation (altogether: translation between
molecules and language), which we explore for the first time. Furthermore,
since $\textbf{MolT5}$ pretrains models on single-modal data, it helps overcome
the chemistry domain shortcoming of data scarcity. Additionally, we consider
several metrics, including a new cross-modal embedding-based metric, to
evaluate the tasks of molecule captioning and text-based molecule generation.
By interfacing molecules with natural language, we enable a higher semantic
level of control over molecule discovery and understanding--a critical task for
scientific domains such as drug discovery and material design. Our results show
that $\textbf{MolT5}$-based models are able to generate outputs, both molecule
and text, which in many cases are high quality and match the input modality. On
molecule generation, our best model achieves 30% exact matching test accuracy
(i.e., it generates the correct structure for about one-third of the captions
in our held-out test set).
- Abstract(参考訳): 画像とテキストの結合表現は文献で深く研究されている。
コンピュータビジョンでは、画像のセマンティックレベル制御を可能にするために自然言語を組み込むことの利点が明確になっている。
本稿では,大量のラベルなし自然言語テキストと分子文字列を事前学習するための自己教師付き学習フレームワークである,$\textbf{molt5}-$aを提案する。
$\textbf{MolT5}$は、分子キャプションやテキストベースのdenovo分子生成(分子と言語間の翻訳)といった従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にします。
さらに、$\textbf{MolT5}$はシングルモーダルデータの事前トレーニングモデルであるため、データ不足の化学領域の欠点を克服するのに役立ちます。
さらに,分子キャプションやテキストベースの分子生成のタスクを評価するために,新たなクロスモーダル埋め込みベースメトリクスなど,いくつかの指標を検討する。
分子と自然言語を相互作用させることにより、分子の発見と理解をより高い意味レベルで制御することができる。
その結果、$\textbf{molt5}$ベースのモデルは分子とテキストの両方の出力を生成でき、それは多くの場合、高品質で入力のモダリティに合致する。
分子生成において, 最適モデルでは, 30%の精度で一致試験を行う(つまり, 保持試験セットの約3分の1のキャプションに対して正しい構造を生成する)。
関連論文リスト
- UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.51027934845928]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。