論文の概要: mCLM: A Function-Infused and Synthesis-Friendly Modular Chemical Language Model
- arxiv url: http://arxiv.org/abs/2505.12565v1
- Date: Sun, 18 May 2025 22:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.309077
- Title: mCLM: A Function-Infused and Synthesis-Friendly Modular Chemical Language Model
- Title(参考訳): mCLM: 関数型・合成型モジュール型化学言語モデル
- Authors: Carl Edwards, Chi Han, Gawon Lee, Thao Nguyen, Bowen Jin, Chetan Kumar Prasad, Sara Szymkuć, Bartosz A. Grzybowski, Ying Diao, Jiawei Han, Ge Liu, Hao Peng, Martin D. Burke, Heng Ji,
- Abstract要約: 分子をビルディングブロックにトークン化するモジュール型ケミカルランゲージモデルであるmCLMを提案し,関数と分子ビルディングブロックの両方の自然言語記述のバイリンガル言語モデルを学習する。
FDAが承認した430種類の薬物の実験では、mCLMは薬物のポテンシャルを決定するのに不可欠な6つの化学機能のうち5つを著しく改善できることがわかった。
- 参考スコア(独自算出の注目度): 65.69164455183956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their ability to understand chemical knowledge and accurately generate sequential representations, large language models (LLMs) remain limited in their capacity to propose novel molecules with drug-like properties. In addition, the molecules that LLMs propose can often be challenging to make in the lab. To more effectively enable the discovery of functional small molecules, LLMs need to learn a molecular language. However, LLMs are currently limited by encoding molecules from atoms. In this paper, we argue that just like tokenizing texts into (sub-)word tokens instead of characters, molecules should be decomposed and reassembled at the level of functional building blocks, i.e., parts of molecules that bring unique functions and serve as effective building blocks for real-world automated laboratory synthesis. This motivates us to propose mCLM, a modular Chemical-Language Model tokenizing molecules into building blocks and learning a bilingual language model of both natural language descriptions of functions and molecule building blocks. By reasoning on such functional building blocks, mCLM guarantees to generate efficiently synthesizable molecules thanks to recent progress in block-based chemistry, while also improving the functions of molecules in a principled manner. In experiments on 430 FDA-approved drugs, we find mCLM capable of significantly improving 5 out of 6 chemical functions critical to determining drug potentials. More importantly, mCLM can reason on multiple functions and improve the FDA-rejected drugs (``fallen angels'') over multiple iterations to greatly improve their shortcomings.
- Abstract(参考訳): 化学知識を理解し、シーケンシャルな表現を正確に生成する能力にもかかわらず、大きな言語モデル(LLM)は薬物のような性質を持つ新しい分子を提案する能力に制限されている。
加えて、LLMが提案する分子は、しばしば研究室で作るのが難しい。
機能的な小さな分子の発見をより効果的に行うには、LLMは分子言語を学ぶ必要がある。
しかし、LLMは現在、原子からの分子のコード化によって制限されている。
本稿では、文字の代わりにテキストを(サブ)ワードトークンにトークン化するのと同じように、分子は機能的なビルディングブロックのレベルで分解・再組み立てされるべきである、と論じる。
これは、分子をビルディングブロックにトークン化し、関数と分子ビルディングブロックの両方の自然言語記述のバイリンガル言語モデルを学ぶモジュール型ケミカルランゲージモデルである。
このような機能的なビルディングブロックを推論することにより、mCLMはブロックベースの化学の最近の進歩により効率的に合成可能な分子を生成することを保証すると同時に、分子の機能を原則的に改善する。
FDAが承認した430種類の薬物の実験では、mCLMは薬物のポテンシャルを決定するのに不可欠な6つの化学機能のうち5つを著しく改善できることがわかった。
さらに重要なことは、mCLMは複数の機能を推論し、FDAに拒絶された薬物(`fallen angels'')を複数の反復で改善し、その欠点を大幅に改善することができる。
関連論文リスト
- Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - Can LLMs Generate Diverse Molecules? Towards Alignment with Structural Diversity [16.964217425866746]
そこで本研究では, 構造的に多様な分子の集合を自己回帰的に生成する分子生成LDMを微調整する手法を提案する。
提案手法は,(1)LLMを自己回帰的に生成する分子に適応させるための微調整と,(2)生成分子の構造多様性を最大化するための強化学習の2段階からなる。
論文 参考訳(メタデータ) (2024-10-04T04:25:36Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - DrugLLM: Open Large Language Model for Few-shot Molecule Generation [20.680942401843772]
DrugLLMは、過去の修飾に基づいて次の分子を予測することで、薬物発見における分子の修飾方法を学ぶ。
計算実験では、限られた例に基づいて期待された特性を持つ新しい分子を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T09:18:13Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。