論文の概要: Can LLMs Generate Diverse Molecules? Towards Alignment with Structural Diversity
- arxiv url: http://arxiv.org/abs/2410.03138v1
- Date: Fri, 4 Oct 2024 04:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:36:45.932723
- Title: Can LLMs Generate Diverse Molecules? Towards Alignment with Structural Diversity
- Title(参考訳): LLMは様々な分子を生成することができるか? : 構造的多様性との整合に向けて
- Authors: Hyosoon Jang, Yunhui Jang, Jaehyung Kim, Sungsoo Ahn,
- Abstract要約: そこで本研究では, 構造的に多様な分子の集合を自己回帰的に生成する分子生成LDMを微調整する手法を提案する。
提案手法は,(1)LLMを自己回帰的に生成する分子に適応させるための微調整と,(2)生成分子の構造多様性を最大化するための強化学習の2段階からなる。
- 参考スコア(独自算出の注目度): 16.964217425866746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have demonstrated impressive performance in generating molecular structures as drug candidates, which offers significant potential to accelerate drug discovery. However, the current LLMs overlook a critical requirement for drug discovery: proposing a diverse set of molecules. This diversity is essential for improving the chances of finding a viable drug, as it provides alternative molecules that may succeed where others fail in wet-lab or clinical validations. Despite such a need for diversity, the LLMs often output structurally similar molecules from a given prompt. While decoding schemes like beam search may enhance textual diversity, this often does not align with molecular structural diversity. In response, we propose a new method for fine-tuning molecular generative LLMs to autoregressively generate a set of structurally diverse molecules, where each molecule is generated by conditioning on the previously generated molecules. Our approach consists of two stages: (1) supervised fine-tuning to adapt LLMs to autoregressively generate molecules in a sequence and (2) reinforcement learning to maximize structural diversity within the generated molecules. Our experiments show that (1) our fine-tuning approach enables the LLMs to better discover diverse molecules compared to existing decoding schemes and (2) our fine-tuned model outperforms other representative LLMs in generating diverse molecules, including the ones fine-tuned on chemical domains.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、分子構造を創出する際、薬物候補として顕著な性能を示しており、薬物発見を加速する大きな可能性を秘めている。
しかし、現在のLSMは、様々な分子のセットを提案するという、薬物発見の重要な要件を見落としている。
この多様性は、他の分子がウェットラブや臨床的検証に失敗する場合に成功する可能性のある代替分子を提供するため、生存可能な薬物を見つける可能性を改善するために不可欠である。
このような多様性の必要性にもかかわらず、LLMはしばしば与えられたプロンプトから構造的に類似した分子を出力する。
ビームサーチのような復号方式はテキストの多様性を高める可能性があるが、これはしばしば分子構造的な多様性と一致しない。
そこで本研究では, 分子生成LDMを微調整し, 構造的に多様な分子の集合を自己回帰的に生成する手法を提案する。
提案手法は,(1)LLMを自己回帰的に生成する分子に適応させるための微調整と,(2)生成分子の構造多様性を最大化するための強化学習の2段階からなる。
実験により,1) 既存の復号法と比較して, LLM がより多様な分子を発見できることを示すとともに, 2) 化学ドメインに微調整された分子を含む様々な分子の生成において, LLM が他の代表的 LLM よりも優れることを示した。
関連論文リスト
- Many-Shot In-Context Learning for Molecular Inverse Design [56.65345962071059]
大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)において、優れたパフォーマンスを示している。
マルチショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
論文 参考訳(メタデータ) (2024-07-26T21:10:50Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - DrugLLM: Open Large Language Model for Few-shot Molecule Generation [20.680942401843772]
DrugLLMは、過去の修飾に基づいて次の分子を予測することで、薬物発見における分子の修飾方法を学ぶ。
計算実験では、限られた例に基づいて期待された特性を持つ新しい分子を生成することができる。
論文 参考訳(メタデータ) (2024-05-07T09:18:13Z) - Diffusing on Two Levels and Optimizing for Multiple Properties: A Novel
Approach to Generating Molecules with Desirable Properties [33.2976176283611]
本稿では,分子を望ましい性質で生成する新しい手法を提案する。
望ましい分子断片を得るため,我々は新しい電子効果に基づくフラグメンテーション法を開発した。
提案手法により生成する分子は, 従来のSOTAモデルより有効, 特異性, 新規性, Fr'echet ChemNet Distance (FCD), QED, PlogP を有することを示す。
論文 参考訳(メタデータ) (2023-10-05T11:43:21Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
いくつかの新しい分子は現実世界の薬物の基本的な要件を満たしていないため、MOODは特性予測器からの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z) - Learning a Continuous Representation of 3D Molecular Structures with
Deep Generative Models [0.0]
生成モデルは、連続的な潜伏空間における分子の表現と最適化を学ぶ全く異なるアプローチである。
原子密度格子を用いた三次元分子構造の深部生成モデルについて述べる。
また、与えられた入力化合物に基づいて多様な分子の集合をサンプリングすることで、有効な薬物様分子の創出の可能性を高めることができる。
論文 参考訳(メタデータ) (2020-10-17T01:15:47Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。