論文の概要: mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules
- arxiv url: http://arxiv.org/abs/2505.12565v2
- Date: Sun, 12 Oct 2025 06:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.548002
- Title: mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules
- Title(参考訳): mCLM: 機能および製造可能な分子を生成するモジュラー化学言語モデル
- Authors: Carl Edwards, Chi Han, Gawon Lee, Thao Nguyen, Sara Szymkuć, Chetan Kumar Prasad, Bowen Jin, Jiawei Han, Ying Diao, Ge Liu, Hao Peng, Bartosz A. Grzybowski, Martin D. Burke, Heng Ji,
- Abstract要約: 本稿では,関数と分子ブロックの両方を自然言語で記述するモジュール型ケミカル・ランゲージモデルを提案する。
mCLMフロントロードは、分子の予測関数を原則的に改善しながら、合成可能性を考慮している。
- 参考スコア(独自算出の注目度): 61.161776104062774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their ability to understand chemical knowledge, large language models (LLMs) remain limited in their capacity to propose novel molecules with desired functions (e.g., drug-like properties). In addition, the molecules that LLMs propose can often be challenging to make, and are almost never compatible with automated synthesis approaches. To better enable the discovery of functional small molecules, LLMs need to learn a new molecular language that is more effective in predicting properties and inherently synced with automated synthesis technology. Current molecule LLMs are limited by representing molecules based on atoms. In this paper, we argue that just like tokenizing texts into meaning-bearing (sub-)word tokens instead of characters, molecules should be tokenized at the level of functional building blocks, i.e., parts of molecules that bring unique functions and serve as effective building blocks for real-world automated laboratory synthesis. This motivates us to propose mCLM, a modular Chemical-Language Model that comprises a bilingual language model that understands both natural language descriptions of functions and molecular blocks. mCLM front-loads synthesizability considerations while improving the predicted functions of molecules in a principled manner. mCLM, with only 3B parameters, achieves improvements in synthetic accessibility relative to 7 other leading generative AI methods including GPT-5. When tested on 122 out-of-distribution medicines using only building blocks/tokens that are compatible with automated modular synthesis, mCLM outperforms all baselines in property scores and synthetic accessibility. mCLM can also reason on multiple functions and iteratively self-improve to rescue drug candidates that failed late in clinical trials ("fallen angels").
- Abstract(参考訳): 化学知識を理解する能力があるにもかかわらず、大きな言語モデル(LLM)は、望ましい機能を持つ新しい分子(例えば薬物のような性質)を提案する能力に限界がある。
加えて、LLMが提案する分子は、しばしば作るのが難しく、自動合成アプローチとほとんど互換性がない。
機能的な小さな分子の発見をより効果的にするために、LLMは性質を予測し、自動合成技術と本質的に同期する新しい分子言語を学ぶ必要がある。
現在の分子LLMは、原子に基づく分子を表現することによって制限される。
本稿では, テキストを文字の代わりに意味を持つ(サブ)ワードトークンにトークン化するのと同じように, 分子は機能的ビルディングブロックのレベルでトークン化されるべきである, すなわち, ユニークな機能を持ち, 実世界の自動実験室合成に有効なビルディングブロックとして機能する分子の一部である。
これは、関数の自然言語記述と分子ブロックの両方を理解するバイリンガル言語モデルを構成するモジュール式ケミカル・ランゲージモデルであるmCLMを提案する動機である。
mCLMフロントロードは、分子の予測関数を原則的に改善しながら、合成可能性を考慮している。
3Bパラメータしか持たないmCLMは、GPT-5を含む他の7つの主要な生成AIメソッドと比較して、合成アクセシビリティの改善を実現している。
自動的なモジュール合成と互換性のあるビルディングブロック/トケンのみを用いて122のアウト・オブ・ディストリビューション・メディカルで試験すると、mCLMは全てのベースラインを特性スコアと合成アクセシビリティで上回る。
mCLMはまた、複数の機能を推論し、臨床試験の後期に失敗した薬物候補を救うために反復的に自己改善する("fallen angels")。
関連論文リスト
- Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - Can LLMs Generate Diverse Molecules? Towards Alignment with Structural Diversity [16.964217425866746]
そこで本研究では, 構造的に多様な分子の集合を自己回帰的に生成する分子生成LDMを微調整する手法を提案する。
提案手法は,(1)LLMを自己回帰的に生成する分子に適応させるための微調整と,(2)生成分子の構造多様性を最大化するための強化学習の2段階からなる。
論文 参考訳(メタデータ) (2024-10-04T04:25:36Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - SmileyLlama: Modifying Large Language Models for Directed Chemical Space Exploration [2.5159482339113084]
汎用大規模言語モデル (LLM) が化学言語モデル (CLM) に変換可能であることを示す。
SmileyLlamaを、大量のChEMBLデータをスクラッチから訓練したCLMと比較し、有効で新規な薬物様分子を生成する能力を評価した。
論文 参考訳(メタデータ) (2024-09-03T18:59:20Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - DrugLLM: Open Large Language Model for Few-shot Molecule Generation [20.680942401843772]
DrugLLMは、過去の修飾に基づいて次の分子を予測することで、薬物発見における分子の修飾方法を学ぶ。
計算実験では、限られた例に基づいて期待された特性を持つ新しい分子を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T09:18:13Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。