論文の概要: From In Silico to In Vitro: Evaluating Molecule Generative Models for Hit Generation
- arxiv url: http://arxiv.org/abs/2512.22031v1
- Date: Fri, 26 Dec 2025 14:02:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:56:03.362883
- Title: From In Silico to In Vitro: Evaluating Molecule Generative Models for Hit Generation
- Title(参考訳): In SilicoからIn Vitro: ヒット生成のための分子生成モデルの評価
- Authors: Nagham Osman, Vittorio Lembo, Giovanni Bottegoni, Laura Toni,
- Abstract要約: 我々は、生成モデルがパイプラインの1つのステップ、ヒットライクな分子生成を置き換えることができるかどうかを検討する。
具体的には、このようなモデルがヒットライクな分子を生成するための訓練が可能かどうかを調べ、従来のヒット識別を直接組み込むか、あるいは置き換えることもできるか検討する。
以上の結果から, これらのモデルにより, 複数の標的にまたがる有効, 多様性, 生物学的に関連のある化合物を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 1.7744342894757368
- License:
- Abstract: Hit identification is a critical yet resource-intensive step in the drug discovery pipeline, traditionally relying on high-throughput screening of large compound libraries. Despite advancements in virtual screening, these methods remain time-consuming and costly. Recent progress in deep learning has enabled the development of generative models capable of learning complex molecular representations and generating novel compounds de novo. However, using ML to replace the entire drug-discovery pipeline is highly challenging. In this work, we rather investigate whether generative models can replace one step of the pipeline: hit-like molecule generation. To the best of our knowledge, this is the first study to explicitly frame hit-like molecule generation as a standalone task and empirically test whether generative models can directly support this stage of the drug discovery pipeline. Specifically, we investigate if such models can be trained to generate hit-like molecules, enabling direct incorporation into, or even substitution of, traditional hit identification workflows. We propose an evaluation framework tailored to this task, integrating physicochemical, structural, and bioactivity-related criteria within a multi-stage filtering pipeline that defines the hit-like chemical space. Two autoregressive and one diffusion-based generative models were benchmarked across various datasets and training settings, with outputs assessed using standard metrics and target-specific docking scores. Our results show that these models can generate valid, diverse, and biologically relevant compounds across multiple targets, with a few selected GSK-3$β$ hits synthesized and confirmed active in vitro. We also identify key limitations in current evaluation metrics and available training data.
- Abstract(参考訳): ヒット同定は、薬物発見パイプラインにおいて重要なもののリソース集約的なステップであり、伝統的に大規模な複合ライブラリの高スループットスクリーニングに依存している。
仮想スクリーニングの進歩にもかかわらず、これらの手法は時間と費用がかかるままである。
近年のディープラーニングの進歩により、複雑な分子表現を学習し、新しい化合物をデノボで生成できる生成モデルの開発が可能となった。
しかし、薬物発見パイプライン全体をMLで置き換えることは極めて困難である。
本研究では, 生成モデルがパイプラインの一段階, ヒットライクな分子生成に取って代わるかどうかを検討する。
我々の知る限りでは、この研究は、ヒットライクな分子生成をスタンドアロンのタスクとして明示的にフレーム化し、生成モデルが創薬パイプラインのこの段階を直接サポートできるかどうかを実証的に検証する最初の研究である。
具体的には、このようなモデルがヒットのような分子を生成するように訓練され、従来のヒット識別ワークフローへの直接の組み入れや置換が可能かどうかを検討する。
本研究は, 物理化学的, 構造的, 生物活性に関する基準を多段階フィルタリングパイプラインに統合し, ヒッチライクな化学空間を定義した評価フレームワークを提案する。
2つの自己回帰モデルと1つの拡散ベースの生成モデルが、さまざまなデータセットとトレーニング設定にわたってベンチマークされ、標準メトリクスとターゲット固有のドッキングスコアを使用して出力が評価された。
以上の結果から, これらのモデルにより, 複数の標的にまたがる有効, 多様性, 生物学的に関連のある化合物が生成でき, GSK-3$β$のヒットがin vitroで合成され, 確認された。
また、現在の評価指標と利用可能なトレーニングデータにおける重要な制限を特定します。
関連論文リスト
- Flow Matching Meets Biology and Life Science: A Survey [65.2146737141455]
拡散に基づく生成モデリングの強力な代替手段としてフローマッチングが登場した。
本稿では,フローマッチングの最近の進歩とその生物学的領域への応用に関する包括的調査について述べる。
論文 参考訳(メタデータ) (2025-07-23T17:44:29Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Generative Modeling of Molecular Dynamics Trajectories [12.255021091552441]
データからMDの柔軟なマルチタスクサロゲートモデルを学ぶためのパラダイムとして,分子軌道の生成モデルを提案する。
このような生成モデルは,前方シミュレーションや遷移経路サンプリング,軌道上アップサンプリングといった多様なタスクに適応可能であることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:02:28Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - ChemoVerse: Manifold traversal of latent spaces for novel molecule
discovery [0.7742297876120561]
所望の化学的性質を持つ分子構造を同定することが不可欠である。
ニューラルネットワークと機械学習を用いた生成モデルの最近の進歩は、薬物のような化合物の仮想ライブラリの設計に広く利用されている。
論文 参考訳(メタデータ) (2020-09-29T12:11:40Z) - Scaffold-constrained molecular generation [0.0]
SMILESをベースとしたリカレントニューラルネットワーク(Recurrent Neural Network, RNN)生成モデルを構築し, 足場制約付き生成を実現するため, サンプリング手法を改良した。
本稿では,様々なタスクにおいて足場制約付き生成を行う手法について紹介する。
論文 参考訳(メタデータ) (2020-09-15T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。