論文の概要: Enhancing Molecular Property Prediction with Knowledge from Large Language Models
- arxiv url: http://arxiv.org/abs/2509.20664v1
- Date: Thu, 25 Sep 2025 01:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.649498
- Title: Enhancing Molecular Property Prediction with Knowledge from Large Language Models
- Title(参考訳): 大規模言語モデルからの知識による分子特性予測の強化
- Authors: Peng Zhou, Lai Hou Tim, Zhixiang Cheng, Kun Xie, Chaoyi Li, Wei Liu, Xiangxiang Zeng,
- Abstract要約: 本研究では,大規模言語モデルから抽出した知識を,事前学習された分子モデルから抽出した構造的特徴と統合し,分子特性の予測を強化する新しいフレームワークを提案する。
分子ベクター化のためのドメイン関連知識と実行可能コードの両方を生成し,その後構造表現に融合した知識ベースの特徴を生成する。
- 参考スコア(独自算出の注目度): 15.273538257961905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting molecular properties is a critical component of drug discovery. Recent advances in deep learning, particularly Graph Neural Networks (GNNs), have enabled end-to-end learning from molecular structures, reducing reliance on manual feature engineering. However, while GNNs and self-supervised learning approaches have advanced molecular property prediction (MPP), the integration of human prior knowledge remains indispensable, as evidenced by recent methods that leverage large language models (LLMs) for knowledge extraction. Despite their strengths, LLMs are constrained by knowledge gaps and hallucinations, particularly for less-studied molecular properties. In this work, we propose a novel framework that, for the first time, integrates knowledge extracted from LLMs with structural features derived from pre-trained molecular models to enhance MPP. Our approach prompts LLMs to generate both domain-relevant knowledge and executable code for molecular vectorization, producing knowledge-based features that are subsequently fused with structural representations. We employ three state-of-the-art LLMs, GPT-4o, GPT-4.1, and DeepSeek-R1, for knowledge extraction. Extensive experiments demonstrate that our integrated method outperforms existing approaches, confirming that the combination of LLM-derived knowledge and structural information provides a robust and effective solution for MPP.
- Abstract(参考訳): 分子特性の予測は、薬物発見の重要な構成要素である。
近年のディープラーニング、特にグラフニューラルネットワーク(GNN)は、分子構造からエンドツーエンドの学習を可能にし、手動の特徴工学への依存を減らす。
しかし、GNNや自己教師型学習アプローチは、分子特性予測(MPP)が進んでいるが、人間の事前知識の統合は、知識抽出に大規模言語モデル(LLM)を利用する最近の手法で証明されているように、不可欠である。
強みにもかかわらず、LLMは知識ギャップや幻覚、特に研究の少ない分子の性質によって制約される。
本研究では,LLMから抽出した知識を,事前学習された分子モデルから得られた構造的特徴と統合し,MPPを向上させる新しい枠組みを提案する。
分子ベクター化のためのドメイン関連知識と実行可能コードの両方を生成し,その後構造表現に融合した知識ベースの特徴を生成する。
知識抽出には3つの最先端LCM, GPT-4o, GPT-4.1, DeepSeek-R1 を用いる。
大規模な実験により,本手法は既存の手法よりも優れており,LLM由来の知識と構造情報の組み合わせがMPPの堅牢で効果的な解となることを確認した。
関連論文リスト
- $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。
RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。
本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文 参考訳(メタデータ) (2025-05-17T13:13:13Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models [12.744381867301353]
大規模言語モデルとドメイン固有小モデルを統合する新しい分子グラフ表現学習フレームワークを提案する。
分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて、分子表現の事前学習を誘導する。
論文 参考訳(メタデータ) (2024-08-19T16:11:59Z) - Many-Shot In-Context Learning for Molecular Inverse Design [56.65345962071059]
大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)において、優れたパフォーマンスを示している。
マルチショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
論文 参考訳(メタデータ) (2024-07-26T21:10:50Z) - LLM and GNN are Complementary: Distilling LLM for Multimodal Graph Learning [26.980622926162933]
マルチモーダル分子データを用いた大規模言語モデル(LLM)からの洞察を抽出する革新的なフレームワークを提案する。
マルチモーダル知識をMLP(Multilayer Perceptron)に蒸留することにより,LLMとグラフニューラルネットワーク(GNN)の機能を相乗化するフレームワークであるGALLONを紹介する。
論文 参考訳(メタデータ) (2024-06-03T06:33:51Z) - A quantitative analysis of knowledge-learning preferences in large language models in molecular science [24.80165173525286]
大規模言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しい研究パラダイムを導入している。
LLMは分子の理解と生成を著しく強化し、しばしば複雑な分子パターンをデコードし合成する能力で既存の手法を超越している。
我々は、ChEBI-20-MMというマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
論文 参考訳(メタデータ) (2024-02-06T16:12:36Z) - Mitigating Large Language Model Hallucinations via Autonomous Knowledge
Graph-based Retrofitting [51.7049140329611]
本稿では,知識グラフに基づくリトロフィッティング(KGR)を提案する。
実験により,実QAベンチマークにおいて,KGRはLLMの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-11-22T11:08:38Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Generative Enriched Sequential Learning (ESL) Approach for Molecular
Design via Augmented Domain Knowledge [1.4410716345002657]
生成機械学習技術は、分子指紋表現に基づく新しい化学構造を生成することができる。
教師付きドメイン知識の欠如は、学習手順がトレーニングデータに見られる一般的な分子に相対的に偏っていることを誤解させる可能性がある。
この欠点は、例えば薬物類似度スコア(QED)の定量的推定など、ドメイン知識でトレーニングデータを増強することで軽減した。
論文 参考訳(メタデータ) (2022-04-05T20:16:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。