論文の概要: Combining GCN Structural Learning with LLM Chemical Knowledge for Enhanced Virtual Screening
- arxiv url: http://arxiv.org/abs/2504.17497v2
- Date: Sat, 26 Apr 2025 11:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.361143
- Title: Combining GCN Structural Learning with LLM Chemical Knowledge for Enhanced Virtual Screening
- Title(参考訳): 拡張仮想スクリーニングのためのGCN構造学習とLCMケミカル知識の併用
- Authors: Radia Berreziga, Mohammed Brahimi, Khairedine Kraim, Hamid Azzoune,
- Abstract要約: 局所的な構造学習とグローバルな化学知識を組み合わせたハイブリッドアーキテクチャを提案する。
最終層のみに限らず,各GCN層にLLMを埋め込むと,性能が著しく向上することがわかった。
F1スコア(88.8%)、スタンドアローンGCN(87.9%)、XGBoost(85.5%)、SVM(85.4%)のベースラインよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 0.562479170374811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual screening plays a critical role in modern drug discovery by enabling the identification of promising candidate molecules for experimental validation. Traditional machine learning methods such, as Support Vector Machines (SVM) and XGBoost, rely on predefined molecular representations, often leading to information loss and potential bias. In contrast, deep learning approaches-particularly Graph Convolutional Networks (GCNs)-offer a more expressive and unbiased alternative by operating directly on molecular graphs. Meanwhile, Large Language Models (LLMs) have recently demonstrated state-of-the-art performance in drug design, thanks to their capacity to capture complex chemical patterns from large-scale data via attention mechanisms. In this paper, we propose a hybrid architecture that integrates GCNs with LLM-derived embeddings to combine localized structural learning with global chemical knowledge. The LLM embeddings can be precomputed and stored in a molecular feature library, removing the need to rerun the LLM during training or inference and thus maintaining computational efficiency. We found that concatenating the LLM embeddings after each GCN layer-rather than only at the final layer-significantly improves performance, enabling deeper integration of global context throughout the network. The resulting model achieves superior results, with an F1-score of (88.8\%), outperforming standalone GCN (87.9%), XGBoost (85.5%), and SVM (85.4%) baselines.
- Abstract(参考訳): 仮想スクリーニングは、実験的検証のための有望な候補分子の同定を可能にすることで、現代の薬物発見において重要な役割を担っている。
Support Vector Machines (SVM) や XGBoost といった従来の機械学習手法は、事前に定義された分子表現に依存しており、情報損失や潜在的なバイアスにつながることが多い。
対照的に、ディープラーニングアプローチ(特にグラフ畳み込みネットワーク(GCN))は、分子グラフを直接操作することで、より表現力が高く偏りのない代替手段である。
一方、LLM(Large Language Models)は、注意機構を通じて大規模データから複雑な化学パターンを捉える能力のおかげで、最近、医薬品設計における最先端のパフォーマンスを実証した。
本稿では,GCNをLCM由来の埋め込みと統合し,局所的な構造学習とグローバルな化学知識を組み合わせたハイブリッドアーキテクチャを提案する。
LLM埋め込みは、分子特徴ライブラリにプリコンパイルして保存することができ、トレーニングや推論中にLLMを再実行する必要がなくなり、計算効率が維持される。
最終層のみではなく各GCN層にLLMを埋め込むことで性能が大幅に向上し,ネットワーク全体にわたるグローバルコンテキストのより深い統合を可能にした。
その結果、F1スコア(88.8\%)、スタンドアローンGCN(87.9%)、XGBoost(85.5%)、SVM(85.4%)のベースラインよりも優れた結果が得られる。
関連論文リスト
- MolGraph-xLSTM: A graph-based dual-level xLSTM framework with multi-head mixture-of-experts for enhanced molecular representation and interpretability [9.858315463084084]
MolGraph-xLSTMはグラフベースのxLSTMモデルであり、特徴抽出を強化し、分子の長距離相互作用を効果的にモデル化する。
我々のアプローチは分子グラフを原子レベルとモチーフレベルという2つのスケールで処理する。
MolGraph-xLSTMを10個の分子特性予測データセット上で検証し、分類と回帰の両方のタスクをカバーした。
論文 参考訳(メタデータ) (2025-01-30T15:47:59Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Enhancing Cognitive Workload Classification Using Integrated LSTM Layers and CNNs for fNIRS Data Analysis [13.74551296919155]
本稿では、ディープラーニングモデルにおける畳み込みニューラルネットワーク(CNN)の有効性に対する長期記憶層の影響について検討する。
LSTMレイヤを統合することで、モデルがfNIRSデータ内の時間的依存関係をキャプチャし、認知状態をより包括的に理解することが可能になる。
論文 参考訳(メタデータ) (2024-07-22T11:28:34Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - LLM and GNN are Complementary: Distilling LLM for Multimodal Graph Learning [26.980622926162933]
マルチモーダル分子データを用いた大規模言語モデル(LLM)からの洞察を抽出する革新的なフレームワークを提案する。
マルチモーダル知識をMLP(Multilayer Perceptron)に蒸留することにより,LLMとグラフニューラルネットワーク(GNN)の機能を相乗化するフレームワークであるGALLONを紹介する。
論文 参考訳(メタデータ) (2024-06-03T06:33:51Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Accelerating Molecular Graph Neural Networks via Knowledge Distillation [1.9116784879310031]
グラフニューラルネットワーク(GNN)の最近の進歩は、分子や分子系のより包括的なモデリングを可能にしている。
この分野は、より大規模で複雑なアーキテクチャへと進展しているため、最先端のGNNは、多くの大規模アプリケーションでほとんど禁止されている。
我々は, 方向性および同変GNNにおける隠れ表現の蒸留を容易にするKD戦略を考案し, エネルギー・力予測の回帰タスクにおけるその性能を評価する。
論文 参考訳(メタデータ) (2023-06-26T16:24:31Z) - Improving Molecular Contrastive Learning via Faulty Negative Mitigation
and Decomposed Fragment Contrast [17.142976840521264]
グラフニューラルネットワーク(GNN)を用いた表現の分子コントラスト学習の改善のためのiMolCLRを提案する。
実験の結果,提案手法はGNNモデルの性能を著しく向上させることがわかった。
iMolCLRは本質的に分子の類似性を推論できる足場や官能基を埋め込む。
論文 参考訳(メタデータ) (2022-02-18T18:33:27Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。