論文の概要: FARM: Functional Group-Aware Representations for Small Molecules
- arxiv url: http://arxiv.org/abs/2410.02082v1
- Date: Sun, 6 Oct 2024 21:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 09:05:40.811705
- Title: FARM: Functional Group-Aware Representations for Small Molecules
- Title(参考訳): FARM: 小分子の関数型グループ認識表現
- Authors: Thao Nguyen, Kuan-Hao Huang, Ge Liu, Martin D. Burke, Ying Diao, Heng Ji,
- Abstract要約: 小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しい基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 55.281754551202326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Functional Group-Aware Representations for Small Molecules (FARM), a novel foundation model designed to bridge the gap between SMILES, natural language, and molecular graphs. The key innovation of FARM lies in its functional group-aware tokenization, which incorporates functional group information directly into the representations. This strategic reduction in tokenization granularity in a way that is intentionally interfaced with key drivers of functional properties (i.e., functional groups) enhances the model's understanding of chemical language, expands the chemical lexicon, more effectively bridging SMILES and natural language, and ultimately advances the model's capacity to predict molecular properties. FARM also represents molecules from two perspectives: by using masked language modeling to capture atom-level features and by employing graph neural networks to encode the whole molecule topology. By leveraging contrastive learning, FARM aligns these two views of representations into a unified molecular embedding. We rigorously evaluate FARM on the MoleculeNet dataset, where it achieves state-of-the-art performance on 10 out of 12 tasks. These results highlight FARM's potential to improve molecular representation learning, with promising applications in drug discovery and pharmaceutical research.
- Abstract(参考訳): SMILES,自然言語,分子グラフのギャップを埋める新しい基礎モデルであるFARM(Functional Group-Aware Representations for Small Molecules)を紹介する。
FARMの鍵となる革新は、関数型グループ認識トークン化であり、関数型グループ情報を表現に直接組み込む。
この戦略的なトークン化粒度の減少は、機能的特性の主要な要因(すなわち、官能基)と意図的に相互作用し、化学言語に対するモデルの理解を高め、化学レキシコンを拡張し、SMILESと自然言語をより効果的にブリッジし、最終的に分子特性を予測する能力を向上させる。
FARMはまた、原子レベルの特徴を捉えるためにマスク付き言語モデリングを使用することと、分子トポロジ全体を符号化するためにグラフニューラルネットワークを使用することである。
対照的な学習を活用することで、FARMはこれらの2つの表現のビューを統一された分子埋め込みに整列させる。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
これらの結果は、FARMが分子表現学習を改善する可能性を浮き彫りにし、医薬品発見や薬学研究に有望な応用が期待できる。
関連論文リスト
- Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - DrugLLM: Open Large Language Model for Few-shot Molecule Generation [20.680942401843772]
DrugLLMは、過去の修飾に基づいて次の分子を予測することで、薬物発見における分子の修飾方法を学ぶ。
計算実験では、限られた例に基づいて期待された特性を持つ新しい分子を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T09:18:13Z) - Contrastive Dual-Interaction Graph Neural Network for Molecular Property Prediction [0.0]
本稿では,分子特性予測のための自己教師付きグラフニューラルネットワークフレームワークであるDIG-Molを紹介する。
DIG-Molは2つの相互接続ネットワークと運動量蒸留ネットワークを統合し、分子特性を効率的に改善する。
我々は,様々な分子特性予測タスクにおける広範囲な実験的評価により,DIG-Molの最先端性能を確立した。
論文 参考訳(メタデータ) (2024-05-04T10:09:27Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。