論文の概要: NaFM: Pre-training a Foundation Model for Small-Molecule Natural Products
- arxiv url: http://arxiv.org/abs/2503.17656v1
- Date: Sat, 22 Mar 2025 05:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:26.679307
- Title: NaFM: Pre-training a Foundation Model for Small-Molecule Natural Products
- Title(参考訳): NaFM:小型天然物の基礎モデルの事前学習
- Authors: Yuheng Ding, Yusong Wang, Bo Qiang, Jie Yu, Qi Li, Yiran Zhou, Zhenmin Liu,
- Abstract要約: 微生物、動物、植物からの代謝物などの天然物は多様な生物活性を示す。
既存の製品研究のためのディープラーニング手法は、特定の下流タスク用に設計された教師付き学習アプローチに依存している。
我々は,その特質に基づいた天然物の基盤モデルを事前学習した。
本フレームワークは, 天然物採掘や薬物発見に関連する下流業務において, 最先端のSOTA(State-of-the-art)を実現する。
- 参考スコア(独自算出の注目度): 7.124182654659631
- License:
- Abstract: Natural products, as metabolites from microorganisms, animals, or plants, exhibit diverse biological activities, making them crucial for drug discovery. Nowadays, existing deep learning methods for natural products research primarily rely on supervised learning approaches designed for specific downstream tasks. However, such one-model-for-a-task paradigm often lacks generalizability and leaves significant room for performance improvement. Additionally, existing molecular characterization methods are not well-suited for the unique tasks associated with natural products. To address these limitations, we have pre-trained a foundation model for natural products based on their unique properties. Our approach employs a novel pretraining strategy that is especially tailored to natural products. By incorporating contrastive learning and masked graph learning objectives, we emphasize evolutional information from molecular scaffolds while capturing side-chain information. Our framework achieves state-of-the-art (SOTA) results in various downstream tasks related to natural product mining and drug discovery. We first compare taxonomy classification with synthesized molecule-focused baselines to demonstrate that current models are inadequate for understanding natural synthesis. Furthermore, by diving into a fine-grained analysis at both the gene and microbial levels, NaFM demonstrates the ability to capture evolutionary information. Eventually, our method is experimented with virtual screening, illustrating informative natural product representations that can lead to more effective identification of potential drug candidates.
- Abstract(参考訳): 微生物、動物、植物の代謝産物などの天然物は多様な生物活性を示しており、薬物発見に不可欠である。
現在では、天然ガス研究のための既存のディープラーニング手法は、主に特定の下流タスク用に設計された教師付き学習アプローチに依存している。
しかし、そのようなワンモデル・フォー・ア・タスクのパラダイムは、しばしば一般化性に欠け、性能改善のための大きな余地を残している。
さらに、既存の分子的特徴付け手法は、天然物に関連するユニークなタスクには適していない。
これらの制約に対処するために、我々は、そのユニークな性質に基づいて、天然物の基盤モデルを事前訓練した。
当社のアプローチでは,特に天然物に適した,新しい事前学習戦略を採用しています。
対照的な学習とグラフ学習の目的を取り入れることで、側鎖情報を取得しながら分子足場からの進化情報を強調する。
本フレームワークは, 天然物採掘や薬物発見に関連する下流業務において, 最先端のSOTA(State-of-the-art)を実現する。
まず、分類分類を合成分子に焦点をあてたベースラインと比較し、現在のモデルが自然合成を理解するのに不十分であることを示す。
さらに、遺伝子レベルと微生物レベルの両方できめ細かい分析をすることで、NAFMは進化情報を捉える能力を示す。
最終的に,本手法は,創薬候補のより効果的な同定に繋がる,情報的天然物表現を仮想スクリーニングを用いて実験する。
関連論文リスト
- Nature Language Model: Deciphering the Language of Nature for Scientific Discovery [105.55751854768297]
基礎モデルは自然言語処理と人工知能に革命をもたらした。
本研究では,科学発見のためのシーケンスベース科学基盤モデルであるNatureLMを紹介する。
論文 参考訳(メタデータ) (2025-02-11T13:08:03Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Bidirectional Generation of Structure and Properties Through a Single
Molecular Foundation Model [44.60174246341653]
本稿では, 構造と生化学的性質を組み込んだ, 新規なマルチモーダル分子事前学習モデルを提案する。
提案するデータハンドリングおよびトレーニング目的のモデルパイプラインは、共通埋め込み空間における構造/プロパティの特徴を整合させる。
これらのコントリビューションは相乗的知識を生み出し、単一のモデルでマルチモーダルと非モーダルの両方の下流タスクに取り組むことができる。
論文 参考訳(メタデータ) (2022-11-19T05:16:08Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - A biologically-inspired evaluation of molecular generative machine
learning [17.623886600638716]
分子生成モデル評価のためのバイオインスパイアされた新しいベンチマークを提案する。
本稿では, 創出出力評価のための相補的手法として, レクリエーション指標, 薬物-標的親和性予測, 分子ドッキングを提案する。
論文 参考訳(メタデータ) (2022-08-20T11:01:10Z) - Analysis of training and seed bias in small molecules generated with a
conditional graph-based variational autoencoder -- Insights for practical
AI-driven molecule generation [0.0]
活性条件付きグラフベース変分オートエンコーダ(VAE)の出力に及ぼすシードとトレーニングバイアスの影響を解析する。
グラフに基づく生成モデルは, 所望の条件付き活性と, 生成分子における好ましくない物理特性の創出に優れていた。
論文 参考訳(メタデータ) (2021-07-19T16:00:05Z) - Evolution Is All You Need: Phylogenetic Augmentation for Contrastive
Learning [1.7188280334580197]
生物配列埋め込みの自己監視型表現学習は、下流タスクにおける計算リソースの制約を緩和する。
進化的系統的増補を用いた対比学習が表現学習の目的として利用できることを示す。
論文 参考訳(メタデータ) (2020-12-25T01:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。