論文の概要: NovoMolGen: Rethinking Molecular Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2508.13408v1
- Date: Tue, 19 Aug 2025 00:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.744977
- Title: NovoMolGen: Rethinking Molecular Language Model Pretraining
- Title(参考訳): NovoMolGen: 分子言語モデルの事前トレーニングを再考
- Authors: Kamran Chitsaz, Roshan Balaji, Quentin Fournier, Nirav Pravinbhai Bhatt, Sarath Chandar,
- Abstract要約: 我々は、デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベースの基礎モデルであるNovoMolGenを紹介する。
実験的な分析により,事前学習中の測定値と実際の下流のパフォーマンスとの間には弱い相関関係が認められた。
NovoMolGenは、新しい最先端の結果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、Moll-LLMや特殊生成モデルよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 9.129612888515059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing de-novo molecules with desired property profiles requires efficient exploration of the vast chemical space ranging from $10^{23}$ to $10^{60}$ possible synthesizable candidates. While various deep generative models have been developed to design small molecules using diverse input representations, Molecular Large Language Models (Mol-LLMs) based on string representations have emerged as a scalable approach capable of exploring billions of molecules. However, there remains limited understanding regarding how standard language modeling practices such as textual representations, tokenization strategies, model size, and dataset scale impact molecular generation performance. In this work, we systematically investigate these critical aspects by introducing NovoMolGen, a family of transformer-based foundation models pretrained on 1.5 billion molecules for de-novo molecule generation. Through extensive empirical analyses, we identify a weak correlation between performance metrics measured during pretraining and actual downstream performance, revealing important distinctions between molecular and general NLP training dynamics. NovoMolGen establishes new state-of-the-art results, substantially outperforming prior Mol-LLMs and specialized generative models in both unconstrained and goal-directed molecular generation tasks, thus providing a robust foundation for advancing efficient and effective molecular modeling strategies.
- Abstract(参考訳): 所望の特性プロファイルを持つデノボ分子を設計するには、10^{23}$から10^{60}$の膨大な化学空間を効率的に探索する必要がある。
多様な入力表現を用いて小さな分子を設計するための様々な深層生成モデルが開発されているが、文字列表現に基づく分子大言語モデル(Mol-LLM)は数十億の分子を探索できるスケーラブルなアプローチとして出現している。
しかし、テキスト表現、トークン化戦略、モデルサイズ、データセットスケールが分子生成性能にどのように影響するかといった標準言語モデリングの実践について、まだ理解が限られている。
本研究では,デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベース基盤モデルであるNovoMolGenを導入することにより,これらの重要な側面を体系的に検討する。
大規模な実験分析により,プレトレーニング中の測定値と実際の下流性能との間には弱い相関関係がみられ,分子と一般のNLPトレーニングのダイナミックスとの重要な違いが明らかとなった。
NovoMolGenは、新しい最先端の成果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、事前のモル-LLMと特殊生成モデルを大幅に上回り、効率的で効果的な分子モデリング戦略を推進するための堅牢な基盤を提供する。
関連論文リスト
- $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。