論文の概要: MolRGen: A Training and Evaluation Setting for De Novo Molecular Generation with Reasonning Models
- arxiv url: http://arxiv.org/abs/2603.18256v1
- Date: Wed, 18 Mar 2026 20:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.837339
- Title: MolRGen: A Training and Evaluation Setting for De Novo Molecular Generation with Reasonning Models
- Title(参考訳): MolRGen: 推論モデルによるデノボ分子生成のトレーニングと評価
- Authors: Philippe Formont, Maxime Darrin, Ismail Ben Ayed, Pablo Piantanida,
- Abstract要約: 我々は、推論に基づく大規模言語モデルのトレーニングと評価のためのベンチマークとデータセットであるMorRGenを紹介する。
まず,textitde novo分子生成と特性予測のためのモデルの評価と訓練を行う。
第2に、生成分子の品質と多様性の両方をキャプチャする、多様性を意識した新しいトップ・ドルスコアを導入する。
- 参考スコア(独自算出の注目度): 48.34354151490484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning-based large language models (LLMs) have demonstrated substantial improvements in complex problem-solving tasks. Motivated by these advances, several works have explored the application of reasoning LLMs to drug discovery and molecular design. However, most existing approaches either focus on evaluation or rely on training setups that require ground-truth labels, such as molecule pairs with known property modifications. Such supervision is unavailable in \textit{de novo} molecular generation, where the objective is to generate novel molecules that optimize a desirability score without prior knowledge of high-scoring candidates. To bridge this gap, we introduce MolRGen, a large-scale benchmark and dataset for training and evaluating reasoning-based LLMs on \textit{de novo} molecular generation. Our contributions are threefold. First, we propose a setting to evaluate and train models for \textit{de novo} molecular generation and property prediction. Second, we introduce a novel diversity-aware top-$k$ score that captures both the quality and diversity of generated molecules. Third, we show our setting can be used to train LLMs for molecular generation, training a 24B LLM with reinforcement learning, and we provide a detailed analysis of its performance and limitations.
- Abstract(参考訳): 推論に基づく大規模言語モデル(LLM)の最近の進歩は、複雑な問題解決タスクにおいて著しく改善されている。
これらの進歩によって、いくつかの研究がLSMの薬物発見と分子設計への応用について研究している。
しかし、既存のほとんどのアプローチは、評価に焦点を当てるか、あるいは既知の特性修飾を持つ分子対のような、地味なラベルを必要とする訓練装置に依存している。
このような監督は、ハイスコア候補の事前の知識なしに、望ましくないスコアを最適化する新規分子を生成することを目的としている、‘textit{de novo} 分子生成では利用できない。
このギャップを埋めるために,分子生成のtextit{de novo} 上での推論に基づく LLM のトレーニングと評価のための大規模ベンチマークとデータセットである MolRGen を導入する。
私たちの貢献は3倍です。
まず,<textit{de novo} 分子生成と特性予測のためのモデルの評価と訓練を行う。
第2に、生成分子の品質と多様性の両方をキャプチャする、多様性を意識した新しいトップ・ドルスコアを導入する。
第3に,分子生成のためのLLMのトレーニング,強化学習による24B LLMのトレーニング,およびその性能と限界に関する詳細な解析を行う。
関連論文リスト
- NovoMolGen: Rethinking Molecular Language Model Pretraining [14.403924658046806]
我々は、デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベースの基礎モデルであるNovoMolGenを紹介する。
実験的な分析により,事前学習中の測定値と実際の下流のパフォーマンスとの間には弱い相関関係が認められた。
NovoMolGenは、新しい最先端の結果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、Moll-LLMや特殊生成モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-19T00:04:48Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - A Survey of Large Language Models for Text-Guided Molecular Discovery: from Molecule Generation to Optimization [20.160910256604726]
大規模言語モデル(LLM)は分子発見のパラダイムシフトを導入している。
この調査は、分子生成と分子最適化という2つの中心的なタスクにおいて、LSMの新たな利用について、最新のレビューを提供する。
論文 参考訳(メタデータ) (2025-05-22T00:26:27Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。