論文の概要: GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text
- arxiv url: http://arxiv.org/abs/2308.06911v2
- Date: Thu, 4 Jan 2024 02:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 17:17:47.936457
- Title: GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text
- Title(参考訳): git-mol: グラフ、画像、テキストを用いた分子科学のためのマルチモーダル大言語モデル
- Authors: Pengfei Liu, Yiming Ren and Zhixiang Ren
- Abstract要約: グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
- 参考スコア(独自算出の注目度): 26.874808007141965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have made significant strides in natural language
processing, enabling innovative applications in molecular science by processing
textual representations of molecules. However, most existing language models
cannot capture the rich information with complex molecular structures or
images. In this paper, we introduce GIT-Mol, a multi-modal large language model
that integrates the Graph, Image, and Text information. To facilitate the
integration of multi-modal molecular data, we propose GIT-Former, a novel
architecture that is capable of aligning all modalities into a unified latent
space. We achieve a 5%-10% accuracy increase in properties prediction and a
20.2% boost in molecule generation validity compared to the baselines. With the
any-to-language molecular translation strategy, our model has the potential to
perform more downstream tasks, such as compound name recognition and chemical
reaction prediction.
- Abstract(参考訳): 大規模な言語モデルは自然言語処理において大きな進歩を遂げ、分子のテキスト表現を処理することによって分子科学における革新的な応用を可能にした。
しかし、既存の言語モデルは複雑な分子構造や画像でリッチな情報を捉えることができない。
本稿では,グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
マルチモーダルな分子データの統合を容易にするため,全てのモダリティを統一された潜在空間に整列させることができる新しいアーキテクチャであるGIT-Formerを提案する。
特性予測の精度が5%~10%向上し, 分子生成の有効性が20.2%向上した。
言語間の分子翻訳戦略により, 化合物名認識や化学反応予測など, より下流の課題を遂行できる可能性が示唆された。
関連論文リスト
- Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models [12.744381867301353]
大規模言語モデルとドメイン固有小モデルを統合する新しい分子グラフ表現学習フレームワークを提案する。
分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて、分子表現の事前学習を誘導する。
論文 参考訳(メタデータ) (2024-08-19T16:11:59Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and
Uni-Modal Adapter [91.77292826067465]
言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2次元グラフの認識を欠いている。
クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング(MolCA: Molecular Graph-Language Modeling)を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:52:58Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Keeping it Simple: Language Models can learn Complex Molecular
Distributions [0.0]
本稿では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習できることを示した。
論文 参考訳(メタデータ) (2021-12-06T13:40:58Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。