論文の概要: Conditional Chemical Language Models are Versatile Tools in Drug Discovery
- arxiv url: http://arxiv.org/abs/2507.10273v1
- Date: Mon, 14 Jul 2025 13:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.971101
- Title: Conditional Chemical Language Models are Versatile Tools in Drug Discovery
- Title(参考訳): 薬物発見における条件付き化学言語モデル
- Authors: Lu Zhu, Emmanuel Noutahi,
- Abstract要約: 分子の優先順位を決定するための生物学的文脈を規定する化学モデリングフレームワークSAFE-Tを提案する。
仮想スクリーニング、ドラッグ・ターゲット相互作用予測、アクティビティ・崖検出などのタスク間で分子のスコアリングがサポートされている。
既存のアプローチに匹敵するパフォーマンスを継続的に達成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative chemical language models (CLMs) have demonstrated strong capabilities in molecular design, yet their impact in drug discovery remains limited by the absence of reliable reward signals and the lack of interpretability in their outputs. We present SAFE-T, a generalist chemical modeling framework that conditions on biological context -- such as protein targets or mechanisms of action -- to prioritize and design molecules without relying on structural information or engineered scoring functions. SAFE-T models the conditional likelihood of fragment-based molecular sequences given a biological prompt, enabling principled scoring of molecules across tasks such as virtual screening, drug-target interaction prediction, and activity cliff detection. Moreover, it supports goal-directed generation by sampling from this learned distribution, aligning molecular design with biological objectives. In comprehensive zero-shot evaluations across predictive (LIT-PCBA, DAVIS, KIBA, ACNet) and generative (DRUG, PMO) benchmarks, SAFE-T consistently achieves performance comparable to or better than existing approaches while being significantly faster. Fragment-level attribution further reveals that SAFE-T captures known structure-activity relationships, supporting interpretable and biologically grounded design. Together with its computational efficiency, these results demonstrate that conditional generative CLMs can unify scoring and generation to accelerate early-stage drug discovery.
- Abstract(参考訳): 生成化学言語モデル(CLM)は、分子設計において強力な能力を示したが、その薬剤発見への影響は、信頼できる報酬信号の欠如と、その出力における解釈可能性の欠如によって制限されている。
構造情報や工学的なスコアリング機能に頼ることなく、分子を優先順位付けし、設計するための、タンパク質標的や作用機構などの生物学的文脈を条件とした一般的な化学モデリングフレームワークSAFE-Tを提案する。
SAFE-Tは、生物学的なプロンプトが与えられたフラグメントベースの分子配列の条件付き確率をモデル化し、仮想スクリーニング、薬物-標的相互作用予測、アクティビティ崖検出などのタスクで分子のスコアリングを可能にする。
さらに、この学習分布からサンプリングし、分子設計を生物学的目的と整合させることにより、ゴール指向生成をサポートする。
予測的 (LIT-PCBA, DAVIS, KIBA, ACNet) と生成的 (DRUG, PMO) ベンチマークの総合的なゼロショット評価では、SAFE-T は既存のアプローチに匹敵する性能を保ちながら、大幅に高速である。
フラグメントレベルの属性は、SAFE-Tが既知の構造活性の関係を捉え、解釈可能で生物学的に基盤付けられた設計をサポートすることをさらに明らかにしている。
これらの結果は、計算効率とともに、条件付き生成型CLMがスコアと生成を統一し、早期の薬物発見を加速できることを示した。
関連論文リスト
- DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? [19.700175505235876]
ToxiMolは、分子毒性の修復に焦点を当てた汎用マルチモーダル言語モデル(MLLM)のための最初のベンチマークタスクである。
11の一次課題と560の有毒な分子を包含し, 多様な機構と粒度にまたがる標準データセットを構築した。
論文 参考訳(メタデータ) (2025-06-12T17:25:53Z) - Learning Hierarchical Interaction for Accurate Molecular Property Prediction [8.488251667425887]
Hierarchical Interaction Message Net (HimNet)は、ADMETプロファイルを予測するための新しいディープラーニングモデルである。
HimNetは、ほとんどの分子特性予測タスクにおいて、最高の、または最も近いパフォーマンスを達成する。
HimNetは、分子活性とADMET特性予測のための正確で効率的なソリューションであると考えています。
論文 参考訳(メタデータ) (2025-04-28T15:19:28Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - GFlowNet Pretraining with Inexpensive Rewards [2.924067540644439]
A-GFN(Atomic GFlowNets)は、個々の原子をビルディングブロックとして活用し、薬物のような化学空間をより包括的に探索する基礎的な生成モデルである。
オフラインな薬物様分子データセットを用いた教師なし事前学習手法を提案する。
我々は、目標条件付き微調整プロセスを実装し、A-GFNを適応させて特定の目標特性に最適化する手法をさらに強化する。
論文 参考訳(メタデータ) (2024-09-15T11:42:17Z) - Unveiling Molecular Moieties through Hierarchical Grad-CAM Graph Explainability [0.0]
生物学的活性に対する分子サブストラクチャーの特定の寄与を解明するための説明可能な方法の統合は重要な課題である。
我々は,小分子のデータセットを用いて20個のGNNモデルを訓練し,キナーゼファミリーから20個のタンパク質標的上での活性を予測することを目標とした。
我々は階層型Grad-CAMグラフExplainerフレームワークを実装し,タンパク質-リガンド結合安定化を駆動する分子構造を詳細に解析する。
論文 参考訳(メタデータ) (2024-01-29T17:23:25Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - A biologically-inspired evaluation of molecular generative machine
learning [17.623886600638716]
分子生成モデル評価のためのバイオインスパイアされた新しいベンチマークを提案する。
本稿では, 創出出力評価のための相補的手法として, レクリエーション指標, 薬物-標的親和性予測, 分子ドッキングを提案する。
論文 参考訳(メタデータ) (2022-08-20T11:01:10Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Learning To Navigate The Synthetically Accessible Chemical Space Using
Reinforcement Learning [75.95376096628135]
ド・ノボ薬物設計のための強化学習(RL)を利用した新しい前方合成フレームワークを提案する。
このセットアップでは、エージェントは巨大な合成可能な化学空間をナビゲートする。
本研究は,合成可能な化学空間を根本的に拡張する上で,エンド・ツー・エンド・トレーニングが重要なパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-04-26T21:40:03Z) - CogMol: Target-Specific and Selective Drug Design for COVID-19 Using
Deep Generative Models [74.58583689523999]
新規なウイルスタンパク質を標的とした新規な薬物様小分子を設計するためのエンド・ツー・エンドのフレームワークであるCogMolを提案する。
CogMolは、分子SMILES変分オートエンコーダ(VAE)の適応事前学習と、効率的なマルチ属性制御サンプリングスキームを組み合わせる。
CogMolは、高目標特異性と選択性を有する合成可能で低毒性な薬物様分子の多制約設計を扱う。
論文 参考訳(メタデータ) (2020-04-02T18:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。