論文の概要: MolFM: A Multimodal Molecular Foundation Model
- arxiv url: http://arxiv.org/abs/2307.09484v2
- Date: Fri, 21 Jul 2023 05:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 15:08:59.410504
- Title: MolFM: A Multimodal Molecular Foundation Model
- Title(参考訳): MolFM:マルチモーダル分子基盤モデル
- Authors: Yizhen Luo, Kai Yang, Massimo Hong, Xing Yi Liu, and Zaiqing Nie
- Abstract要約: MolFMは分子構造、バイオメディカルテキスト、知識グラフからの共同表現学習を容易にするために設計された多モード分子基盤モデルである。
我々は,同分子の異なるモジュラリティ間の特徴空間における距離を最小化することにより,我々のクロスモーダル事前学習が局所的および大域的分子知識を捕捉する理論解析を行う。
クロスモーダル検索では、MolFMは既存のモデルよりも12.13%、絶対利得は5.04%、ゼロショットと微調整がそれぞれ優れている。
- 参考スコア(独自算出の注目度): 9.934141536012596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular knowledge resides within three different modalities of information
sources: molecular structures, biomedical documents, and knowledge bases.
Effective incorporation of molecular knowledge from these modalities holds
paramount significance in facilitating biomedical research. However, existing
multimodal molecular foundation models exhibit limitations in capturing
intricate connections between molecular structures and texts, and more
importantly, none of them attempt to leverage a wealth of molecular expertise
derived from knowledge graphs. In this study, we introduce MolFM, a multimodal
molecular foundation model designed to facilitate joint representation learning
from molecular structures, biomedical texts, and knowledge graphs. We propose
cross-modal attention between atoms of molecular structures, neighbors of
molecule entities and semantically related texts to facilitate cross-modal
comprehension. We provide theoretical analysis that our cross-modal
pre-training captures local and global molecular knowledge by minimizing the
distance in the feature space between different modalities of the same
molecule, as well as molecules sharing similar structures or functions. MolFM
achieves state-of-the-art performance on various downstream tasks. On
cross-modal retrieval, MolFM outperforms existing models with 12.13% and 5.04%
absolute gains under the zero-shot and fine-tuning settings, respectively.
Furthermore, qualitative analysis showcases MolFM's implicit ability to provide
grounding from molecular substructures and knowledge graphs. Code and models
are available on https://github.com/BioFM/OpenBioMed.
- Abstract(参考訳): 分子知識は、分子構造、生物医学文書、知識基盤の3つの異なる情報源の様相に存在する。
これらのモダリティから分子知識を効果的に組み込むことは、生体医学研究の促進に最重要となる。
しかし、既存のマルチモーダル分子基礎モデルでは、分子構造とテキストの間の複雑な結合を捉えることに限界があり、さらに重要なことに、知識グラフから派生した豊富な分子知識を活用しようとはしない。
本研究では,分子構造,バイオメディカルテキスト,知識グラフからの共同表現学習を容易にするためのマルチモーダル分子基盤モデルであるMolFMを紹介する。
本稿では,分子構造の原子間,分子の近傍,意味的関連テキスト間のクロスモーダル・アテンションを提案する。
クロスモーダル事前学習は、同じ分子の異なるモダリティ間の特徴空間における距離を最小化し、同じ構造や機能を共有する分子を最小化することで、局所的および大域的な分子知識を捉えているという理論的分析を提供する。
MolFMは様々な下流タスクで最先端のパフォーマンスを達成する。
クロスモーダル検索では、MolFMは既存のモデルよりも12.13%、絶対利得は5.04%、ゼロショットと微調整がそれぞれ優れている。
さらに、質的分析は分子のサブ構造と知識グラフからの接地を提供する mofm の暗黙の能力を示す。
コードとモデルはhttps://github.com/BioFM/OpenBioMed.comで入手できる。
関連論文リスト
- MolFusion: Multimodal Fusion Learning for Molecular Representations via Multi-granularity Views [25.69424590542192]
分子多量性を組み合わせた多粒性融合法を提案する。
MolFusionは分子レベルのエンコーディングコンポーネントであるMollSimと、原子レベルのエンコーディングコンポーネントであるAtomAlignの2つの重要なコンポーネントで構成されている。
その結果,MolFusionは補完的なマルチモーダル情報を効果的に活用し,性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-26T02:26:50Z) - Learning Multi-view Molecular Representations with Structured and Unstructured Knowledge [14.08112359246334]
本稿では, 化学構造から多視点分子知識を抽出する表現学習モデルMV-Mol, バイオメディカルテキストからの非構造化知識, 知識グラフからの構造化知識について述べる。
MV-Molは分子特性予測に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-14T08:48:10Z) - LDMol: Text-Conditioned Molecule Diffusion Model Leveraging Chemically Informative Latent Space [55.5427001668863]
本稿では, LDMol と呼ばれる新しい潜伏拡散モデルを提案する。
具体的には、化学情報的特徴空間を生成する分子エンコーダ、拡散変換器(DiT)を用いた自然言語条件の潜伏拡散モデル、および分子回帰のための自己回帰デコーダの3つの構成要素から構成される。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [50.756644656847165]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused
Deep Learning for Drug Property Prediction [9.948710779498487]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - MUDiff: Unified Diffusion for Complete Molecule Generation [104.7021929437504]
本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する新しいモデルを提案する。
拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。
我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2023-04-28T04:25:57Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。