論文の概要: FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training
- arxiv url: http://arxiv.org/abs/2409.14106v1
- Date: Tue, 8 Oct 2024 05:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:33:25.654422
- Title: FineMolTex: Towards Fine-grained Molecular Graph-Text Pre-training
- Title(参考訳): FineMolTex: 微細なグラフテキスト事前学習を目指して
- Authors: Yibo Li, Yuan Fang, Mengmei Zhang, Chuan Shi,
- Abstract要約: FineMolTexは、粗い分子レベルの知識ときめ細かいモチーフレベルの知識を共同で学習する、分子グラフ-テキスト事前学習フレームワークである。
我々は3つの下流タスクに対して実験を行い、テキストベースの分子編集タスクにおいて最大230%の改善を実現した。
- 参考スコア(独自算出の注目度): 36.130217091969335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding molecular structure and related knowledge is crucial for scientific research. Recent studies integrate molecular graphs with their textual descriptions to enhance molecular representation learning. However, they focus on the whole molecular graph and neglect frequently occurring subgraphs, known as motifs,which are essential for determining molecular properties. Without such fine-grained knowledge, these models struggle to generalize to unseen molecules and tasks that require motif-level insights. To bridge this gap, we propose FineMolTex, a novel Fine-grained Molecular graph-Text pre-training framework to jointly learn coarse-grained molecule-level knowledge and fine-grained motif-level knowledge. Specifically, FineMolTex consists of two pre-training tasks: a contrastive alignment task for coarse-grained matching and a masked multi-modal modeling task for fine-grained matching. In particular, the latter predicts the labels of masked motifs and words, leveraging insights from each other, thereby enabling FineMolTex to understand the fine-grained matching between motifs and words. Finally, we conduct extensive experiments across three downstream tasks, achieving up to 230% improvement in the text-based molecule editing task. Additionally, our case studies reveal that FineMolTex successfully captures fine-grained knowledge, potentially offering valuable insights for drug discovery and catalyst design.
- Abstract(参考訳): 分子構造と関連する知識を理解することは科学研究にとって不可欠である。
近年の研究では、分子グラフをテキスト記述と統合し、分子表現学習を強化している。
しかし、分子グラフ全体に集中し、分子の性質を決定するのに不可欠なモチーフとして知られる頻繁なサブグラフを無視する。
このような細かい知識がなければ、これらのモデルはモチーフレベルの洞察を必要とする未知の分子やタスクに一般化するのに苦労する。
このギャップを埋めるために、我々は、粗粒度分子レベルの知識と微細粒度モチーフレベルの知識を協調的に学習する、新しい微細粒度分子グラフテキスト事前学習フレームワークであるFineMolTexを提案する。
具体的には、FineMolTexは、粗いマッチングのための対照的なアライメントタスクと、きめ細かいマッチングのためのマスク付きマルチモーダルモデリングタスクの2つの事前トレーニングタスクで構成されている。
特に、後者は、相互の洞察を活用して、マスクされたモチーフと単語のラベルを予測することで、FinMolTexはモチーフと単語のきめ細かいマッチングを理解することができる。
最後に、3つの下流タスクにまたがる広範な実験を行い、テキストベースの分子編集タスクにおいて最大230%の改善を実現した。
さらにケーススタディでは、FinMolTexがきめ細かな知識を捉えることに成功し、薬物発見と触媒設計に有用な洞察を提供する可能性があることを明らかにした。
関連論文リスト
- Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
SMILES文字列とテキストから表現を共同学習するマルチモーダルな分子表現学習フレームワークAtomasを提案する。
検索タスクでは、Atomasは堅牢な一般化能力を示し、ベースラインを平均30.8%上回っている。
生成タスクでは、Atomasは分子キャプションタスクと分子生成タスクの両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Translation between Molecules and Natural Language [43.518805086280466]
本稿では,未ラベルの自然言語テキストや分子文字列の事前学習のための自己教師型学習フレームワークを提案する。
$textbfMolT5$は、分子キャプションやテキストベースのdenovo分子生成など、従来の視覚言語タスクの新しい、有用な、挑戦的なアナログを可能にする。
論文 参考訳(メタデータ) (2022-04-25T17:48:09Z) - Molecule Generation for Drug Design: a Graph Learning Perspective [49.8071944694075]
機械学習、特にグラフ学習は、さまざまな分野にまたがるトランスフォーメーションの影響で認知度が高まっている。
そのような有望な応用の1つは分子設計と発見の領域、特に製薬業界における。
本調査では,分子設計における最先端手法,特に深度グラフ学習技術を取り入れたEmphde novo薬物設計について概観する。
論文 参考訳(メタデータ) (2022-02-18T14:26:23Z) - Molecular Contrastive Learning with Chemical Element Knowledge Graph [16.136921143416927]
分子表現学習は、分子特性予測や薬物設計など、下流の複数のタスクに寄与する。
我々は,元素間の微視的関連を要約するケミカル要素知識グラフ(KG)を構築した。
最初のモジュールである知識誘導グラフ拡張は、ケミカル要素KGに基づいて元の分子グラフを増強する。
第2のモジュールである知識対応グラフ表現は、元の分子グラフの共通グラフエンコーダと知識対応メッセージパッシングニューラルネットワーク(KMPNN)を用いて分子表現を抽出し、拡張された分子グラフの複雑な情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-01T15:04:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。