論文の概要: Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models
- arxiv url: http://arxiv.org/abs/2408.10124v1
- Date: Mon, 19 Aug 2024 16:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:33:14.619739
- Title: Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models
- Title(参考訳): 大規模言語モデルとドメイン固有小モデルを統合する分子グラフ表現学習
- Authors: Tianyu Zhang, Yuxiang Ren, Chengbin Hou, Hairong Lv, Xuegong Zhang,
- Abstract要約: 大規模言語モデルとドメイン固有小モデルを統合する新しい分子グラフ表現学習フレームワークを提案する。
分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて、分子表現の事前学習を誘導する。
- 参考スコア(独自算出の注目度): 12.744381867301353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular property prediction is a crucial foundation for drug discovery. In recent years, pre-trained deep learning models have been widely applied to this task. Some approaches that incorporate prior biological domain knowledge into the pre-training framework have achieved impressive results. However, these methods heavily rely on biochemical experts, and retrieving and summarizing vast amounts of domain knowledge literature is both time-consuming and expensive. Large Language Models (LLMs) have demonstrated remarkable performance in understanding and efficiently providing general knowledge. Nevertheless, they occasionally exhibit hallucinations and lack precision in generating domain-specific knowledge. Conversely, Domain-specific Small Models (DSMs) possess rich domain knowledge and can accurately calculate molecular domain-related metrics. However, due to their limited model size and singular functionality, they lack the breadth of knowledge necessary for comprehensive representation learning. To leverage the advantages of both approaches in molecular property prediction, we propose a novel Molecular Graph representation learning framework that integrates Large language models and Domain-specific small models (MolGraph-LarDo). Technically, we design a two-stage prompt strategy where DSMs are introduced to calibrate the knowledge provided by LLMs, enhancing the accuracy of domain-specific information and thus enabling LLMs to generate more precise textual descriptions for molecular samples. Subsequently, we employ a multi-modal alignment method to coordinate various modalities, including molecular graphs and their corresponding descriptive texts, to guide the pre-training of molecular representations. Extensive experiments demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 分子特性予測は、薬物発見の重要な基盤である。
近年,この課題に対して,事前学習型ディープラーニングモデルが広く適用されている。
事前トレーニングフレームワークに事前の生物学的ドメイン知識を取り入れたいくつかのアプローチは、印象的な成果を上げている。
しかし、これらの手法は生化学の専門家に大きく依存しており、膨大な量のドメイン知識文献の検索と要約には時間と費用がかかる。
LLM(Large Language Models)は、一般的な知識の理解と効率的な提供において、優れた性能を発揮している。
それにもかかわらず、彼らは時折幻覚を示し、ドメイン固有の知識を生み出す精度を欠いている。
逆に、ドメイン固有小モデル(DSM)は豊富なドメイン知識を持ち、分子ドメイン関連メトリクスを正確に計算することができる。
しかし、モデルのサイズや特異な機能に制限があるため、包括的な表現学習に必要な知識が不足している。
分子特性予測における両方のアプローチの利点を活用するために,大規模言語モデルとドメイン固有小モデル(MolGraph-LarDo)を統合した新しい分子グラフ表現学習フレームワークを提案する。
技術的には、DSMを導入してLLMの知識を校正し、ドメイン固有情報の精度を高め、分子サンプルのより正確なテキスト記述を生成するための2段階のプロンプト戦略を設計する。
その後,分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて,分子表現の事前学習を指導する。
大規模実験により提案手法の有効性が示された。
関連論文リスト
- MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - In-Context Learning for Few-Shot Molecular Property Prediction [56.67309268480843]
本稿では,文脈内学習の基盤となる概念に適応し,数発の分子特性予測のための新しいアルゴリズムを開発する。
提案手法は分子特性を(分子, 特性測定)ペアの文脈から予測することを学び, 微調整をせずに新しい性質に迅速に適応する。
論文 参考訳(メタデータ) (2023-10-13T05:12:48Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。