論文の概要: GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text
- arxiv url: http://arxiv.org/abs/2308.06911v1
- Date: Mon, 14 Aug 2023 03:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:35:44.225024
- Title: GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text
- Title(参考訳): git-mol: グラフ、画像、テキストを用いた分子科学のためのマルチモーダル大言語モデル
- Authors: Pengfei Liu, Yiming Ren and Zhixiang Ren
- Abstract要約: GIT-Molは、グラフ、画像、テキスト情報を統合するマルチモーダルな大規模言語モデルである。
GIT-Formerは、全てのモダリティを統一された潜在空間にマッピングできる新しいアーキテクチャである。
- 参考スコア(独自算出の注目度): 26.874808007141965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have made significant strides in natural language
processing, paving the way for innovative applications including molecular
representation and generation. However, most existing single-modality
approaches cannot capture the abundant and complex information in molecular
data. Here, we introduce GIT-Mol, a multi-modal large language model that
integrates the structure Graph, Image, and Text information, including the
Simplified Molecular Input Line Entry System (SMILES) and molecular captions.
To facilitate the integration of multi-modal molecular data, we propose
GIT-Former, a novel architecture capable of mapping all modalities into a
unified latent space. Our study develops an innovative any-to-language
molecular translation strategy and achieves a 10%-15% improvement in molecular
captioning, a 5%-10% accuracy increase in property prediction, and a 20% boost
in molecule generation validity compared to baseline or single-modality models.
- Abstract(参考訳): 大規模言語モデルは自然言語処理において大きな進歩を遂げ、分子表現や生成を含む革新的な応用の道を開いた。
しかし、既存のほとんどの単一モダリティアプローチは、分子データの豊富で複雑な情報を捉えることができない。
本稿では,グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molについて紹介する。
マルチモーダルな分子データの統合を容易にするため,すべてのモダリティを統一潜在空間にマッピングできる新しいアーキテクチャであるGIT-Formerを提案する。
本研究では,イノベーティブ・オール・トゥ・ランゲージの分子翻訳戦略を開発し,分子キャプションの10%~15%向上,特性予測の5%~10%の精度向上,および基礎モデルや単一モダリティモデルと比較して分子生成妥当性の20%向上を実現する。
関連論文リスト
- Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models [12.744381867301353]
大規模言語モデルとドメイン固有小モデルを統合する新しい分子グラフ表現学習フレームワークを提案する。
分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて、分子表現の事前学習を誘導する。
論文 参考訳(メタデータ) (2024-08-19T16:11:59Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and
Uni-Modal Adapter [91.77292826067465]
言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2次元グラフの認識を欠いている。
クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング(MolCA: Molecular Graph-Language Modeling)を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:52:58Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Keeping it Simple: Language Models can learn Complex Molecular
Distributions [0.0]
本稿では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習できることを示した。
論文 参考訳(メタデータ) (2021-12-06T13:40:58Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。