論文の概要: Unveiling Molecular Secrets: An LLM-Augmented Linear Model for Explainable and Calibratable Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2410.08829v1
- Date: Fri, 11 Oct 2024 14:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:45:38.125639
- Title: Unveiling Molecular Secrets: An LLM-Augmented Linear Model for Explainable and Calibratable Molecular Property Prediction
- Title(参考訳): 開封分子シークレット:説明可能で計算可能な分子特性予測のためのLLM拡張線形モデル
- Authors: Zhuoran Li, Xu Sun, Wanyu Lin, Jiannong Cao,
- Abstract要約: この研究は、分子特性の正確な予測のための単純な、しかし強力な線形モデルを構築するための、MoleXと呼ばれる新しいフレームワークを提案する。
MoleXの核心は、単純な線形モデルを用いて複雑な分子構造-プロパティ関係をモデル化することであり、LCMの知識と巧妙な校正戦略によって強化される。
大規模な実験により、MoleXは分子特性予測において既存の手法よりも優れており、予測性能、説明可能性、効率性の新たなマイルストーンを確立している。
- 参考スコア(独自算出の注目度): 26.25787628872043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explainable molecular property prediction is essential for various scientific fields, such as drug discovery and material science. Despite delivering intrinsic explainability, linear models struggle with capturing complex, non-linear patterns. Large language models (LLMs), on the other hand, yield accurate predictions through powerful inference capabilities yet fail to provide chemically meaningful explanations for their predictions. This work proposes a novel framework, called MoleX, which leverages LLM knowledge to build a simple yet powerful linear model for accurate molecular property prediction with faithful explanations. The core of MoleX is to model complicated molecular structure-property relationships using a simple linear model, augmented by LLM knowledge and a crafted calibration strategy. Specifically, to extract the maximum amount of task-relevant knowledge from LLM embeddings, we employ information bottleneck-inspired fine-tuning and sparsity-inducing dimensionality reduction. These informative embeddings are then used to fit a linear model for explainable inference. Moreover, we introduce residual calibration to address prediction errors stemming from linear models' insufficient expressiveness of complex LLM embeddings, thus recovering the LLM's predictive power and boosting overall accuracy. Theoretically, we provide a mathematical foundation to justify MoleX's explainability. Extensive experiments demonstrate that MoleX outperforms existing methods in molecular property prediction, establishing a new milestone in predictive performance, explainability, and efficiency. In particular, MoleX enables CPU inference and accelerates large-scale dataset processing, achieving comparable performance 300x faster with 100,000 fewer parameters than LLMs. Additionally, the calibration improves model performance by up to 12.7% without compromising explainability.
- Abstract(参考訳): 説明可能な分子特性予測は、薬物発見や物質科学など、様々な科学分野において不可欠である。
本質的には説明責任を提供するが、線形モデルは複雑で非線形なパターンを捉えるのに苦労する。
一方、大規模言語モデル(LLM)は、強力な推論能力を通じて正確な予測を得られるが、それらの予測に対して化学的に意味のある説明は得られない。
この研究は、LCMの知識を活用して、忠実な説明を伴う正確な分子特性予測のための単純で強力な線形モデルを構築する、MoleXと呼ばれる新しいフレームワークを提案する。
MoleXの核心は、単純な線形モデルを用いて複雑な分子構造-プロパティ関係をモデル化することであり、LCMの知識と巧妙な校正戦略によって強化される。
具体的には,LLM埋め込みからタスク関連知識の最大量を抽出するために,情報ボトルネックに着想を得た微調整と疎度誘導次元減少を用いる。
これらの情報埋め込みは、説明可能な推論のために線形モデルに適合するために使用される。
さらに,線形モデルによる複雑なLLM埋め込みの表現力の不足に起因する予測誤差に対処するために,余剰校正を導入し,LLMの予測力を回復し,全体的な精度を向上させる。
理論的には、MoleXの説明可能性を正当化する数学的基礎を提供する。
大規模な実験により、MoleXは分子特性予測において既存の手法よりも優れており、予測性能、説明可能性、効率性の新たなマイルストーンを確立している。
特に、MoleXはCPU推論を可能にし、大規模データセット処理を高速化する。
さらに、キャリブレーションは説明責任を損なうことなくモデル性能を最大12.7%向上させる。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - LLM and GNN are Complementary: Distilling LLM for Multimodal Graph Learning [26.980622926162933]
マルチモーダル分子データを用いた大規模言語モデル(LLM)からの洞察を抽出する革新的なフレームワークを提案する。
マルチモーダル知識をMLP(Multilayer Perceptron)に蒸留することにより,LLMとグラフニューラルネットワーク(GNN)の機能を相乗化するフレームワークであるGALLONを紹介する。
論文 参考訳(メタデータ) (2024-06-03T06:33:51Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Prediction of transport property via machine learning molecular
movements [1.0554048699217666]
本稿では,物質輸送特性を予測するためのシンプルな教師付き機械学習手法を提案する。
この手法を用いて, せん断流に閉じ込められた潤滑剤分子の粘度を予測した。
低粘度に寄与する分子機構を2種類明らかにした。
論文 参考訳(メタデータ) (2022-03-07T02:28:07Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。