論文の概要: Thinking like a CHEMIST: Combined Heterogeneous Embedding Model Integrating Structure and Tokens
- arxiv url: http://arxiv.org/abs/2502.17986v2
- Date: Sat, 24 May 2025 12:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.463928
- Title: Thinking like a CHEMIST: Combined Heterogeneous Embedding Model Integrating Structure and Tokens
- Title(参考訳): CHEMISTのように考える:構造とトークンを統合した不均一な埋め込みモデル
- Authors: Nikolai Rekut, Alexey Orlov, Klea Ziu, Elizaveta Starykh, Martin Takac, Aleksandr Beznosikov,
- Abstract要約: 本稿では,分子をサブ構造に分解し,これらの断片に対する記述子に基づく表現を計算する新しい手法を提案する。
このサブストラクタと記述子データを言語モデルの入力として使用し、また、この言語モデルとグラフベースのモデルを統合するバイモーダルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 42.203344899915464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing molecular structures effectively in chemistry remains a challenging task. Language models and graph-based models are extensively utilized within this domain, consistently achieving state-of-the-art results across an array of tasks. However, the prevailing practice of representing chemical compounds in the SMILES format - used by most data sets and many language models - presents notable limitations as a training data format. In this study, we present a novel approach that decomposes molecules into substructures and computes descriptor-based representations for these fragments, providing more detailed and chemically relevant input for model training. We use this substructure and descriptor data as input for language model and also propose a bimodal architecture that integrates this language model with graph-based models. As LM we use RoBERTa, Graph Isomorphism Networks (GIN), Graph Convolutional Networks (GCN) and Graphormer as graph ones. Our framework shows notable improvements over traditional methods in various tasks such as Quantitative Structure-Activity Relationship (QSAR) prediction.
- Abstract(参考訳): 化学において分子構造を効果的に表現することは難しい課題である。
言語モデルとグラフベースのモデルは、この領域内で広く利用されており、一連のタスクに対して一貫して最先端の結果が得られます。
しかし、SMILESフォーマット(ほとんどのデータセットや多くの言語モデルで使用される)で化学化合物を表現するという一般的な慣行は、トレーニングデータフォーマットとして顕著な制限を提示している。
本研究では、分子をサブ構造に分解し、これらの断片の記述子に基づく表現を計算し、モデルトレーニングにより詳細で化学的に関連する入力を提供する新しいアプローチを提案する。
このサブストラクタと記述子データを言語モデルの入力として使用し、また、この言語モデルとグラフベースのモデルを統合するバイモーダルアーキテクチャを提案する。
LMでは、RoBERTa、Graph Isomorphism Networks(GIN)、Graph Convolutional Networks(GCN)、Graphormerをグラフとして使用しています。
本フレームワークは,QSAR(Quantical Structure-Activity Relationship)予測などの様々なタスクにおいて,従来の手法よりも顕著に改善されていることを示す。
関連論文リスト
- GNN-CNN: An Efficient Hybrid Model of Convolutional and Graph Neural Networks for Text Representation [0.0]
本研究では,グラフニューラルネットワーク(GNN)と畳み込みニューラルネットワーク(CNN)を組み合わせた新しいモデルアーキテクチャを提案する。
モデルは、パディングやトランケーションを必要とせず、文字レベルの入力のコンパクトバッチを処理する。
CNNを使って局所的なコンテキストパターンをキャプチャし、格子ベースのグラフ構造を通じて局所的な受容場を拡張し、文書レベルの情報を集約するために小さな世界グラフを使用する。
論文 参考訳(メタデータ) (2025-07-10T04:13:53Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - GraphBPE: Molecular Graphs Meet Byte-Pair Encoding [12.985482706851846]
分子グラフを異なるサブ構造にトークン化し,モデルアーキテクチャに依存しない事前処理スケジュールとして機能するGraphBPEを提案する。
3つのグラフレベルの分類と3つのグラフレベルの回帰データセットに関する実験により、データ前処理によって分子グラフのモデルの性能が向上することを示した。
論文 参考訳(メタデータ) (2024-07-26T18:45:09Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - GraphER: A Structure-aware Text-to-Graph Model for Entity and Relation Extraction [3.579132482505273]
自然言語処理(NLP)における情報抽出は重要な課題である
グラフ構造学習(GSL)として定式化する手法を提案する。
この定式化により、エンティティとリレーショナル予測のためのより良い相互作用と構造インフォームド決定が可能になる。
論文 参考訳(メタデータ) (2024-04-18T20:09:37Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - Class-level Structural Relation Modelling and Smoothing for Visual
Representation Learning [12.247343963572732]
本稿では、視覚表現学習のためのbfクラスレベルの構造関係モデリングと平滑化というフレームワークを提案する。
クラスレベルの関係モデリング、クラス対応グラフガイドサンプリング、グラフガイド表現学習モジュールが含まれる。
実験では、構造化知識モデリングによる表現学習の有効性を実証し、CSRMSを任意の最先端の視覚的表現学習モデルに組み込むことにより、パフォーマンス向上を図っている。
論文 参考訳(メタデータ) (2023-08-08T09:03:46Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - KGLM: Integrating Knowledge Graph Structure in Language Models for Link
Prediction [0.0]
我々は、異なるエンティティと関係型を区別することを学ぶ新しいエンティティ/リレーション埋め込み層を導入する。
知識グラフから抽出したトリプルを用いて、この追加埋め込み層を用いて言語モデルをさらに事前学習し、続いて標準微調整フェーズにより、ベンチマークデータセット上のリンク予測タスクに対して、新しい最先端のパフォーマンスが設定されることを示す。
論文 参考訳(メタデータ) (2022-11-04T20:38:12Z) - Graph neural networks for the prediction of molecular structure-property
relationships [59.11160990637615]
グラフニューラルネットワーク(GNN)は、分子グラフ上で直接動作する新しい機械学習手法である。
GNNは、エンドツーエンドでプロパティを学習できるため、情報記述子の必要性を回避することができる。
本稿では、分子特性予測のための2つの例を通して、GNNの基礎を説明し、GNNの応用を実証する。
論文 参考訳(メタデータ) (2022-07-25T11:30:44Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Few-Shot Graph Learning for Molecular Property Prediction [46.60746023179724]
分子特性予測の新しいモデルであるMeta-MGNNを提案する。
ラベルのない分子情報を利用するため、Meta-MGNNはさらに分子構造、属性ベースの自己監視モジュール、および自己注意のタスクウェイトを組み込む。
2つの公開マルチプロパティデータセットに関する広範な実験は、Meta-MGNNがさまざまな最先端のメソッドを上回っていることを示しています。
論文 参考訳(メタデータ) (2021-02-16T01:55:34Z) - Multi-View Graph Neural Networks for Molecular Property Prediction [67.54644592806876]
マルチビューグラフニューラルネットワーク(MV-GNN)を提案する。
MV-GNNでは,学習過程を安定させるために,自己注意型読み出しコンポーネントと不一致損失を導入する。
我々は、相互依存型メッセージパッシング方式を提案することにより、MV-GNNの表現力をさらに強化する。
論文 参考訳(メタデータ) (2020-05-17T04:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。