論文の概要: Chemical Language Models for Natural Products: A State-Space Model Approach
- arxiv url: http://arxiv.org/abs/2602.13958v1
- Date: Sun, 15 Feb 2026 02:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.578825
- Title: Chemical Language Models for Natural Products: A State-Space Model Approach
- Title(参考訳): 天然物のための化学言語モデル:状態空間モデルアプローチ
- Authors: Ho-Hsuan Wang, Afnan Sultan, Andrea Volkamer, Dietrich Klakow,
- Abstract要約: 天然物(NP)は、薬物発見において重要であるにもかかわらず、未発見である。
状態空間モデル(MambaとMamba-2)の事前学習によるNP特化化学言語モデル(NPCLM)を開発する。
NPに着目したタスクに対する選択的状態空間モデルと変換器の最初の体系的比較を示す。
- 参考スコア(独自算出の注目度): 19.163826483084893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models are widely used in chemistry for molecular property prediction and small-molecule generation, yet Natural Products (NPs) remain underexplored despite their importance in drug discovery. To address this gap, we develop NP-specific chemical language models (NPCLMs) by pre-training state-space models (Mamba and Mamba-2) and comparing them with transformer baselines (GPT). Using a dataset of about 1M NPs, we present the first systematic comparison of selective state-space models and transformers for NP-focused tasks, together with eight tokenization strategies including character-level, Atom-in-SMILES (AIS), byte-pair encoding (BPE), and NP-specific BPE. We evaluate molecule generation (validity, uniqueness, novelty) and property prediction (membrane permeability, taste, anti-cancer activity) using MCC and AUC-ROC. Mamba generates 1-2 percent more valid and unique molecules than Mamba-2 and GPT, with fewer long-range dependency errors, while GPT yields slightly more novel structures. For property prediction, Mamba variants outperform GPT by 0.02-0.04 MCC under random splits, while scaffold splits show comparable performance. Results demonstrate that domain-specific pre-training on about 1M NPs can match models trained on datasets over 100 times larger.
- Abstract(参考訳): 言語モデルは分子特性予測や小分子生成に広く用いられているが、薬物発見の重要性にもかかわらず、天然物(NP)は未発見のままである。
このギャップに対処するために,状態空間モデル (Mamba と Mamba-2) を事前学習し,トランスフォーマーベースライン (GPT) と比較することにより,NP固有化学言語モデル (NPCLM) を開発した。
約100万個のNPのデータセットを用いて,NPに着目したタスクに対する選択的状態空間モデルと変換器の体系的比較を行い,文字レベル,Atom-in-SMILES(AIS),バイトペア符号化(BPE),NP固有のBPEを含む8つのトークン化戦略を示す。
MCCおよびAUC-ROCを用いて,分子生成(妥当性,特異性,新規性)および特性予測(膜透過性,味覚,抗がん活性)を評価した。
マンバはマンバ-2やGPTよりも有効で特異な分子を1-2パーセント生成し、長距離依存性エラーは少ないが、GPTはわずかに新しい構造を生成する。
プロパティ予測では、Mamba変種はランダムスプリットでGPTを0.02-0.04 MCCで上回り、スキャフォールドスプリットは同等のパフォーマンスを示した。
その結果、約100万のNPでドメイン固有の事前トレーニングを行うことで、100倍以上のデータセットでトレーニングされたモデルと一致できることが示されている。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - MolecularGPT: Open Large Language Model (LLM) for Few-Shot Molecular Property Prediction [20.92779223471019]
数発の分子特性予測のための分子GPTを提案する。
10のダウンストリーム評価データセットで競合するコンテキスト内推論機能を示す。
また、最先端のLCMベースラインを最大15.7%増加させ、ゼロショット下の回帰指標(例えばRMSE)で17.9減少させる。
論文 参考訳(メタデータ) (2024-06-18T12:54:47Z) - Retrosynthesis Prediction with Local Template Retrieval [112.23386062396622]
特定の標的分子の反応を予測する再合成は、薬物発見に必須の課題である。
本稿では,局所的な反応テンプレート検索手法であるRetroKNNを紹介する。
我々は、広く使われている2つのベンチマーク、USPTO-50KとUSPTO-MITで包括的な実験を行う。
論文 参考訳(メタデータ) (2023-06-07T03:38:03Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z) - Predicting drug properties with parameter-free machine learning:
Pareto-Optimal Embedded Modeling (POEM) [0.13854111346209866]
POEMは、最適化を必要とせず、信頼性の高い予測モデルを生成するために開発された非パラメトリックな教師付きMLアルゴリズムである。
我々は、業界標準のMLアルゴリズムと比較してPOEMをベンチマークし、17の分類タスクにまたがって結果を公表する。
論文 参考訳(メタデータ) (2020-02-11T17:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。