論文の概要: MolBind: Multimodal Alignment of Language, Molecules, and Proteins
- arxiv url: http://arxiv.org/abs/2403.08167v2
- Date: Wed, 3 Apr 2024 01:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 21:58:11.657204
- Title: MolBind: Multimodal Alignment of Language, Molecules, and Proteins
- Title(参考訳): MolBind: 言語、分子、タンパク質の多モードアライメント
- Authors: Teng Xiao, Chao Cui, Huaisheng Zhu, Vasant G. Honavar,
- Abstract要約: MolBindは、コントラスト学習を通じて、複数のモダリティのためにエンコーダを訓練するフレームワークである。
MolBindは、幅広いタスクにわたって優れたゼロショット学習性能を示している。
- 参考スコア(独自算出の注目度): 16.98169256565552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in biology and chemistry have leveraged multi-modal learning, integrating molecules and their natural language descriptions to enhance drug discovery. However, current pre-training frameworks are limited to two modalities, and designing a unified network to process different modalities (e.g., natural language, 2D molecular graphs, 3D molecular conformations, and 3D proteins) remains challenging due to inherent gaps among them. In this work, we propose MolBind, a framework that trains encoders for multiple modalities through contrastive learning, mapping all modalities to a shared feature space for multi-modal semantic alignment. To facilitate effective pre-training of MolBind on multiple modalities, we also build and collect a high-quality dataset with four modalities, MolBind-M4, including graph-language, conformation-language, graph-conformation, and conformation-protein paired data. MolBind shows superior zero-shot learning performance across a wide range of tasks, demonstrating its strong capability of capturing the underlying semantics of multiple modalities.
- Abstract(参考訳): 生物学と化学の最近の進歩は、マルチモーダル学習を活用し、分子とそれらの自然言語の記述を統合して、薬物発見を強化している。
しかし、現在の事前学習フレームワークは2つのモダリティに制限されており、異なるモダリティ(自然言語、2D分子グラフ、3D分子コンフォメーション、3Dタンパク質など)を処理する統一ネットワークを設計している。
本研究では,マルチモーダルなセマンティックアライメントのための共有特徴空間にすべてのモダリティをマッピングし,コントラスト学習を通じて複数のモーダルのエンコーダを訓練するフレームワークであるMollBindを提案する。
マルチモーダル性に基づくMollBindの効果的な事前学習を容易にするため,グラフ言語,コンフォメーション言語,グラフコンフォーメーション,コンフォメーションタンパク質ペアデータを含む,4つのモーダル性を持つ高品質なデータセットを構築し,収集する。
MolBindは、幅広いタスクにわたって優れたゼロショット学習性能を示し、複数のモダリティの基盤となるセマンティクスをキャプチャする強力な能力を示している。
関連論文リスト
- MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning [17.93173928602627]
本稿では,マルチモーダル分子表現学習のためのトランスフォーマーベースラインを提案する。
我々は,SMILES文字列,2次元グラフ表現,分子の3次元コンフォメータの3つの異なるモダリティを統合する。
その単純さにもかかわらず、我々の手法は複数のデータセットにまたがって最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-10T14:36:58Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - MolTC: Towards Molecular Relational Modeling In Language Models [28.960416816491392]
分子間相互作用予測のための新しい枠組みとして,分子間相互作用予測法(分子間相互作用予測法)を提案する。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-06T07:51:56Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。