論文の概要: Large-Scale Knowledge Integration for Enhanced Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2410.11914v1
- Date: Tue, 15 Oct 2024 07:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:43.860277
- Title: Large-Scale Knowledge Integration for Enhanced Molecular Property Prediction
- Title(参考訳): 分子特性予測のための大規模知識統合
- Authors: Yasir Ghunaim, Robert Hoehndorf,
- Abstract要約: 本研究では,大規模なChEBI知識グラフを統合することで,狩野に進出する。
以上の結果から,ChEBIを含めると14の分子特性予測データセットのうち9つの性能が向上することが示された。
- 参考スコア(独自算出の注目度): 1.671326408383712
- License:
- Abstract: Pre-training machine learning models on molecular properties has proven effective for generating robust and generalizable representations, which is critical for advancements in drug discovery and materials science. While recent work has primarily focused on data-driven approaches, the KANO model introduces a novel paradigm by incorporating knowledge-enhanced pre-training. In this work, we expand upon KANO by integrating the large-scale ChEBI knowledge graph, which includes 2,840 functional groups -- significantly more than the original 82 used in KANO. We explore two approaches, Replace and Integrate, to incorporate this extensive knowledge into the KANO framework. Our results demonstrate that including ChEBI leads to improved performance on 9 out of 14 molecular property prediction datasets. This highlights the importance of utilizing a larger and more diverse set of functional groups to enhance molecular representations for property predictions. Code: github.com/Yasir-Ghunaim/KANO-ChEBI
- Abstract(参考訳): 分子特性に関する事前学習機械学習モデルは、堅牢で一般化可能な表現を生成するのに有効であることが証明されている。
最近の研究は主にデータ駆動型アプローチに重点を置いているが、狩野モデルは知識強化事前学習を取り入れた新しいパラダイムを導入している。
本研究では,2,840個の官能基を含む大規模ChEBI知識グラフを統合することにより,狩野に展開する。
我々は、この広範な知識をKanoフレームワークに組み込むために、ReplaceとIntegrateという2つのアプローチを検討します。
以上の結果から,ChEBIを含めると14の分子特性予測データセットのうち9つの性能が向上することが示された。
このことは、特性予測のための分子表現を強化するために、より大きく、より多様な官能基を利用することの重要性を強調している。
コード:github.com/Yasir-Ghunaim/KANO-ChEBI
関連論文リスト
- GNN-SKAN: Harnessing the Power of SwallowKAN to Advance Molecular Representation Learning with GNNs [19.019980841275366]
我々は、KAN(Kolmogorov-Arnold Networks)を統合したGNNの新しいクラスを導入する。
Kanは、その堅牢なデータ適合能力と、小規模AI + Scienceタスクの高精度で知られている。
本稿では,新たなクラスであるGNN-SKANと,その拡張型であるGNN-SKAN+を提案する。
論文 参考訳(メタデータ) (2024-08-02T05:36:14Z) - Ensemble Model With Bert,Roberta and Xlnet For Molecular property prediction [0.0]
本稿では,分子特性を高精度に予測するための新しい手法を提案する。
我々はアンサンブル学習を採用し,BERT,RoBERTa,XLNetの微調整を行う。
この革新は、コスト効率が高く、資源効率のよいソリューションを提供し、分子領域におけるさらなる研究を推し進める可能性がある。
論文 参考訳(メタデータ) (2024-05-30T10:03:58Z) - Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。
我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-03-27T05:10:38Z) - Impact of Domain Knowledge and Multi-Modality on Intelligent Molecular Property Prediction: A Systematic Survey [22.73437302209673]
様々なベンチマークに基づいて,近年のディープラーニング手法を検証,定量的に分析する。
分子情報の統合は、回帰処理と分類処理の両方において分子特性予測(MPP)を大幅に改善する。
また、1D SMILESによる2Dグラフの強化により、回帰タスクのマルチモーダル学習性能が最大9.1%向上し、3D情報による2Dグラフの増大により、分類タスクのパフォーマンスが最大13.2%向上することを発見した。
論文 参考訳(メタデータ) (2024-02-11T17:29:58Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Accelerating Molecular Graph Neural Networks via Knowledge Distillation [1.9116784879310031]
グラフニューラルネットワーク(GNN)の最近の進歩は、分子や分子系のより包括的なモデリングを可能にしている。
この分野は、より大規模で複雑なアーキテクチャへと進展しているため、最先端のGNNは、多くの大規模アプリケーションでほとんど禁止されている。
我々は, 方向性および同変GNNにおける隠れ表現の蒸留を容易にするKD戦略を考案し, エネルギー・力予測の回帰タスクにおけるその性能を評価する。
論文 参考訳(メタデータ) (2023-06-26T16:24:31Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule
Representations [55.42602325017405]
本稿では,分子の2レベル構造を考慮した新しいGODE法を提案する。
異なるグラフ構造上で2つのグラフニューラルネットワーク(GNN)を事前訓練し、対照的な学習と組み合わせることで、GODEは分子構造を対応する知識グラフサブ構造と融合させる。
11の化学特性タスクを微調整した場合、我々のモデルは既存のベンチマークよりも優れており、分類タスクの平均ROC-AUCアップリフトは13.8%、回帰タスクの平均RMSE/MAEエンハンスメントは35.1%である。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Molecule-Morphology Contrastive Pretraining for Transferable Molecular
Representation [0.0]
分子グラフと細胞形態のマルチモーダル表現を学習するためのフレームワークであるMoCoP(Moecule-Morphology Contrastive Pretraining)を紹介する。
我々は、JUMP-CPコンソーシアムのデータを用いて、MoCoPを約100K分子と600K形態素にスケールする。
この結果から,MoCoPを用いた細胞形態と分子グラフの統合により,QSARモデルの性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-27T02:01:41Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Attention-based Neural Bag-of-Features Learning for Sequence Data [143.62294358378128]
2D-Attention (2DA) は、シーケンスデータの一般的なアテンション定式化である。
提案したアテンションモジュールは、最近提案されたNeural Bag of Feature(NBoF)モデルに組み込まれ、学習能力を高める。
実験により,提案手法はNBoFモデルの性能を向上させるだけでなく,ノイズに耐性を持つことを示す。
論文 参考訳(メタデータ) (2020-05-25T17:51:54Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。