論文の概要: Thinking like a CHEMIST: Combined Heterogeneous Embedding Model Integrating Structure and Tokens
- arxiv url: http://arxiv.org/abs/2502.17986v2
- Date: Sat, 24 May 2025 12:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.463928
- Title: Thinking like a CHEMIST: Combined Heterogeneous Embedding Model Integrating Structure and Tokens
- Title(参考訳): CHEMISTのように考える:構造とトークンを統合した不均一な埋め込みモデル
- Authors: Nikolai Rekut, Alexey Orlov, Klea Ziu, Elizaveta Starykh, Martin Takac, Aleksandr Beznosikov,
- Abstract要約: 本稿では,分子をサブ構造に分解し,これらの断片に対する記述子に基づく表現を計算する新しい手法を提案する。
このサブストラクタと記述子データを言語モデルの入力として使用し、また、この言語モデルとグラフベースのモデルを統合するバイモーダルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 42.203344899915464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing molecular structures effectively in chemistry remains a challenging task. Language models and graph-based models are extensively utilized within this domain, consistently achieving state-of-the-art results across an array of tasks. However, the prevailing practice of representing chemical compounds in the SMILES format - used by most data sets and many language models - presents notable limitations as a training data format. In this study, we present a novel approach that decomposes molecules into substructures and computes descriptor-based representations for these fragments, providing more detailed and chemically relevant input for model training. We use this substructure and descriptor data as input for language model and also propose a bimodal architecture that integrates this language model with graph-based models. As LM we use RoBERTa, Graph Isomorphism Networks (GIN), Graph Convolutional Networks (GCN) and Graphormer as graph ones. Our framework shows notable improvements over traditional methods in various tasks such as Quantitative Structure-Activity Relationship (QSAR) prediction.
- Abstract(参考訳): 化学において分子構造を効果的に表現することは難しい課題である。
言語モデルとグラフベースのモデルは、この領域内で広く利用されており、一連のタスクに対して一貫して最先端の結果が得られます。
しかし、SMILESフォーマット(ほとんどのデータセットや多くの言語モデルで使用される)で化学化合物を表現するという一般的な慣行は、トレーニングデータフォーマットとして顕著な制限を提示している。
本研究では、分子をサブ構造に分解し、これらの断片の記述子に基づく表現を計算し、モデルトレーニングにより詳細で化学的に関連する入力を提供する新しいアプローチを提案する。
このサブストラクタと記述子データを言語モデルの入力として使用し、また、この言語モデルとグラフベースのモデルを統合するバイモーダルアーキテクチャを提案する。
LMでは、RoBERTa、Graph Isomorphism Networks(GIN)、Graph Convolutional Networks(GCN)、Graphormerをグラフとして使用しています。
本フレームワークは,QSAR(Quantical Structure-Activity Relationship)予測などの様々なタスクにおいて,従来の手法よりも顕著に改善されていることを示す。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z) - Multi-View Graph Neural Networks for Molecular Property Prediction [67.54644592806876]
マルチビューグラフニューラルネットワーク(MV-GNN)を提案する。
MV-GNNでは,学習過程を安定させるために,自己注意型読み出しコンポーネントと不一致損失を導入する。
我々は、相互依存型メッセージパッシング方式を提案することにより、MV-GNNの表現力をさらに強化する。
論文 参考訳(メタデータ) (2020-05-17T04:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。