論文の概要: MolTC: Towards Molecular Relational Modeling In Language Models
- arxiv url: http://arxiv.org/abs/2402.03781v6
- Date: Mon, 10 Jun 2024 08:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 03:39:46.110678
- Title: MolTC: Towards Molecular Relational Modeling In Language Models
- Title(参考訳): MolTC:言語モデルにおける分子関係モデリングを目指して
- Authors: Junfeng Fang, Shuai Zhang, Chang Wu, Zhengyi Yang, Zhiyuan Liu, Sihang Li, Kun Wang, Wenjie Du, Xiang Wang,
- Abstract要約: 分子間相互作用予測のための新しい枠組みとして,分子間相互作用予測法(分子間相互作用予測法)を提案する。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 28.960416816491392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. To train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.
- Abstract(参考訳): 分子間の相互作用を理解することを目的とした分子関係学習(MRL)は、生化学研究の進展において重要な役割を担っている。
近年,膨大な知識リポジトリと高度な論理推論能力で知られる大規模言語モデル (LLM) の採用が,MRLの効率的かつ効果的な方法として注目されている。
それらの可能性にもかかわらず、これらの手法は主としてテキストデータに依存しており、分子グラフに固有の構造情報の豊富さを十分に活用していない。
さらに、統合されたフレームワークが存在しないことで、さまざまなデータセット間で学習されたインタラクションメカニズムの共有が妨げられるため、情報活用の難しさが増す。
これらの課題に対処するため、本研究では、2つの分子のグラフィカルな情報をペアで効果的に統合するMolt(英語版)と呼ばれるCoT(Chain-of-Thought)理論に従って、分子間相互作用予測のための新しいLLMベースのマルチモーダルフレームワークを提案する。
MolTCを効果的に訓練するために,多階層CoTの概念を導入し,その訓練パラダイムを洗練させ,MRLを含む生化学LLMを開発するための包括的分子インタラクティブインストラクションデータセットを構築した。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
コードはhttps://github.com/MangoKiller/MolTCで入手できる。
関連論文リスト
- FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Many-Shot In-Context Learning for Molecular Inverse Design [56.65345962071059]
大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)において、優れたパフォーマンスを示している。
マルチショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
論文 参考訳(メタデータ) (2024-07-26T21:10:50Z) - Could Chemical LLMs benefit from Message Passing [0.0]
コントラスト学習と融合という,情報統合が性能を向上させるかどうかを評価するための2つの戦略を提案する。
実験により,より小さな分子グラフに適用した場合のベースラインに比べて,積分法は優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-05-14T06:09:08Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - InstructMol: Multi-Modal Integration for Building a Versatile and
Reliable Molecular Assistant in Drug Discovery [19.870192393785043]
LLM(Large Language Models)は、複雑な分子データとの相互作用の再構築を約束する。
我々の新しい貢献であるInstructMolは、インストラクションチューニングアプローチを通じて、分子構造と自然言語を効果的に整合させる。
InstructMolは、薬物発見関連分子タスクの大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-11-27T16:47:51Z) - Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks [44.934084652800976]
コンフォーマーアンサンブルを用いた学習の可能性を徹底的に評価するための,最初のMoleculAR Conformer Ensemble Learningベンチマークを導入する。
その結果,コンバータ空間からの直接学習は,様々なタスクやモデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-09-29T20:06:46Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。