論文の概要: From Tokens to Blocks: A Block-Diffusion Perspective on Molecular Generation
- arxiv url: http://arxiv.org/abs/2601.21964v1
- Date: Thu, 29 Jan 2026 16:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.004915
- Title: From Tokens to Blocks: A Block-Diffusion Perspective on Molecular Generation
- Title(参考訳): トークンからブロックへ:分子生成におけるブロック拡散の展望
- Authors: Qianwei Yang, Dong Xu, Zhangfan Yang, Sisi Yuan, Zexuan Zhu, Jianqiang Li, Junkai Ji,
- Abstract要約: GPTに基づく分子言語モデル(MLM)は、大規模データから化学構文と意味学を学ぶことで、強力な分子設計性能を示した。
本稿では,分子表現,モデルアーキテクチャ,ターゲット認識生成のための探索戦略を共同設計する統合フレームワークであるSoftMolを提案する。
ソフトモールは100%の化学的妥当性を達成し、結合親和性が9.7%向上し、分子多様性が2-3倍向上し、推論効率が6.6倍向上する。
- 参考スコア(独自算出の注目度): 17.14830371749135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drug discovery can be viewed as a combinatorial search over an immense chemical space, motivating the development of deep generative models for de novo molecular design. Among these, GPT-based molecular language models (MLM) have shown strong molecular design performance by learning chemical syntax and semantics from large-scale data. However, existing MLMs face two fundamental limitations: they inadequately capture the graph-structured nature of molecules when formulated as next-token prediction problems, and they typically lack explicit mechanisms for target-aware generation. Here, we propose SoftMol, a unified framework that co-designs molecular representation, model architecture, and search strategy for target-aware molecular generation. SoftMol introduces soft fragments, a rule-free block representation of SMILES that enables diffusion-native modeling, and develops SoftBD, the first block-diffusion molecular language model that combines local bidirectional diffusion with autoregressive generation under molecular structural constraints. To favor generated molecules with high drug-likeness and synthetic accessibility, SoftBD is trained on a carefully curated dataset named ZINC-Curated. SoftMol further integrates a gated Monte Carlo tree search to assemble fragments in a target-aware manner. Experimental results show that, compared with current state-of-the-art models, SoftMol achieves 100% chemical validity, improves binding affinity by 9.7%, yields a 2-3x increase in molecular diversity, and delivers a 6.6x speedup in inference efficiency. Code is available at https://github.com/szu-aicourse/softmol
- Abstract(参考訳): 薬物発見は、デ・ノボ分子設計のための深層生成モデルの開発を動機とする、膨大な化学空間の組合せ探索と見なすことができる。
これらのうち、GPTに基づく分子言語モデル(MLM)は、大規模データから化学構文と意味学を学ぶことで、強力な分子設計性能を示した。
しかし、既存のMLMは次の予測問題として定式化されたとき、グラフ構造の性質が不十分であり、ターゲット認識生成の明確なメカニズムが欠如している。
本稿では,分子表現,モデルアーキテクチャ,ターゲット認識分子生成のための探索戦略を共同設計する統合フレームワークであるSoftMolを提案する。
SoftMolは、拡散ネイティブモデリングを可能にするSMILESのルールフリーブロック表現であるソフトフラグメントを導入し、局所的な双方向拡散と自己回帰生成を分子構造制約下で組み合わせた最初のブロック拡散分子言語モデルであるSoftBDを開発した。
高い薬物類似性と合成アクセシビリティを持つ生成分子を優先するために、SoftBDはZINC-Curatedと呼ばれる慎重に計算されたデータセットで訓練される。
SoftMolはさらに、限定されたモンテカルロ木探索を統合して、フラグメントをターゲット対応で組み立てる。
実験の結果、現在の最先端モデルと比較して、SoftMolは100%の化学的妥当性を達成し、結合親和性は9.7%向上し、分子多様性は2-3倍向上し、推論効率は6.6倍向上した。
コードはhttps://github.com/szu-aicourse/softmolで入手できる。
関連論文リスト
- Improving Large Molecular Language Model via Relation-aware Multimodal Collaboration [34.099746438477816]
マルチレベル分子モード協調プロジェクタを備えた大規模言語モデルに基づく分子アシスタントCoLLaMoを提案する。
実験により,我々のCoLLaMoはLMLMの分子モダリティ一般化能力を向上することが示された。
論文 参考訳(メタデータ) (2026-01-18T04:38:19Z) - KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge [73.51130155601824]
KnowMol-100Kは100Kの微細な分子アノテーションを持つ大規模データセットである。
また,既存の分子表現戦略の限界に効果的に対処する,化学的に不変な分子表現も提案する。
KnowMolは、分子理解および生成タスク間で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-22T11:23:58Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
実験の結果, LDMolはテキストから分子生成ベンチマークにおいて, 既存の自己回帰ベースラインよりも優れていた。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。