論文の概要: Leveraging Partial SMILES Validation Scheme for Enhanced Drug Design in Reinforcement Learning Frameworks
- arxiv url: http://arxiv.org/abs/2505.00530v1
- Date: Thu, 01 May 2025 13:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.316141
- Title: Leveraging Partial SMILES Validation Scheme for Enhanced Drug Design in Reinforcement Learning Frameworks
- Title(参考訳): 強化学習フレームワークにおける薬物設計強化のための部分SMILES検証手法の活用
- Authors: Xinyu Wang, Jinbo Bi, Minghu Song,
- Abstract要約: 本稿では,PSV-PPO(Partial SMILES Validation-PPO)を提案する。
PSV-PPOは、選択されたトークン候補だけでなく、前の部分シーケンスから派生したすべての電位分岐を評価し、各自己回帰ステップで段階的に検証する。
PMO と GuacaMol のベンチマークデータセットを用いた実験により,PSV-PPO が不正な生成構造を著しく減少させることが示された。
- 参考スコア(独自算出の注目度): 8.498666820216066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SMILES-based molecule generation has emerged as a powerful approach in drug discovery. Deep reinforcement learning (RL) using large language model (LLM) has been incorporated into the molecule generation process to achieve high matching score in term of likelihood of desired molecule candidates. However, a critical challenge in this approach is catastrophic forgetting during the RL phase, where knowledge such as molecule validity, which often exceeds 99\% during pretraining, significantly deteriorates. Current RL algorithms applied in drug discovery, such as REINVENT, use prior models as anchors to retian pretraining knowledge, but these methods lack robust exploration mechanisms. To address these issues, we propose Partial SMILES Validation-PPO (PSV-PPO), a novel RL algorithm that incorporates real-time partial SMILES validation to prevent catastrophic forgetting while encouraging exploration. Unlike traditional RL approaches that validate molecule structures only after generating entire sequences, PSV-PPO performs stepwise validation at each auto-regressive step, evaluating not only the selected token candidate but also all potential branches stemming from the prior partial sequence. This enables early detection of invalid partial SMILES across all potential paths. As a result, PSV-PPO maintains high validity rates even during aggressive exploration of the vast chemical space. Our experiments on the PMO and GuacaMol benchmark datasets demonstrate that PSV-PPO significantly reduces the number of invalid generated structures while maintaining competitive exploration and optimization performance. While our work primarily focuses on maintaining validity, the framework of PSV-PPO can be extended in future research to incorporate additional forms of valuable domain knowledge, further enhancing reinforcement learning applications in drug discovery.
- Abstract(参考訳): SMILESに基づく分子生成は、薬物発見の強力なアプローチとして現れている。
大規模言語モデル (LLM) を用いた深層強化学習 (RL) を分子生成プロセスに組み込んで, 所望の分子候補の確率で高い一致率を達成する。
しかし、このアプローチにおける重要な課題は、RL期における破滅的な忘れ込みであり、分子の正当性のような知識は、前訓練中に99\%を超えることがしばしばあり、著しく悪化する。
現在のRLアルゴリズムは、例えばREINVENTのような薬物発見に適用されており、先行モデルをレチアン事前学習知識のアンカーとして使用しているが、これらの手法には堅牢な探索機構がない。
これらの問題に対処するために,リアルタイム部分的SMILES検証を取り入れた新しいRLアルゴリズムであるPartial SMILES Validation-PPO(PSV-PPO)を提案する。
配列全体を生成した後に分子構造を検証する従来のRLアプローチとは異なり、PSV-PPOは、選択されたトークン候補だけでなく、前の部分配列に由来する全ての電位枝を評価する自動回帰ステップで段階的に検証する。
これにより、全ての潜在的な経路で無効な部分SMILESを早期に検出できる。
結果として、PSV-PPOは、広大な化学空間の積極的な探査においても高い妥当性を維持している。
PMOおよびGuacaMolベンチマークデータセットを用いた実験により、PSV-PPOは競合探索と最適化性能を維持しながら、無効な構造を著しく減少させることが示された。
本研究は主に妥当性の維持に重点を置いているが、今後の研究でPSV-PPOの枠組みが拡張され、付加的な価値あるドメイン知識が組み込まれ、薬物発見における強化学習応用がさらに強化される可能性がある。
関連論文リスト
- De Novo Molecular Design Enabled by Direct Preference Optimization and Curriculum Learning [0.0]
デノボ分子設計は、薬物発見と材料科学に広く応用されている。
巨大な化学空間は直接分子探索を計算的に禁止し、従来の実験スクリーニングは時間と労働の両方に集約している。
NLPの直接選好最適化(DPO)は、分子スコアに基づくサンプルペアを使用して、高品質分子と低品質分子の確率差を最大化する。
論文 参考訳(メタデータ) (2025-04-02T06:00:21Z) - Pretraining Generative Flow Networks with Inexpensive Rewards for Molecular Graph Generation [6.495442425890008]
Generative Flow Networks (GFlowNets) は、多種多様な高品質な分子構造を生成するのに適したフレームワークとして最近登場した。
本稿では,個々の原子を構成要素として活用する基本生成モデルであるAtomic GFlowNets(A-GFNs)を紹介する。
医薬品のような分子データセットを用いた教師なし事前学習手法を提案し,A-GFNに安価で情報伝達性の高い分子記述子について教える。
論文 参考訳(メタデータ) (2025-03-08T20:41:07Z) - Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - A Systematic Survey of Chemical Pre-trained Models [38.57023440288189]
ディープニューラルネットワーク(DNN)をスクラッチからトレーニングするには、しばしば大量のラベル付き分子を必要とする。
この問題を緩和するため、分子事前学習モデル(CPM)に多大な努力が注がれている。
CPMは、大規模未ラベルの分子データベースを使用して事前訓練され、特定の下流タスクに対して微調整される。
論文 参考訳(メタデータ) (2022-10-29T03:53:11Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
いくつかの新しい分子は現実世界の薬物の基本的な要件を満たしていないため、MOODは特性予測器からの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - Generative Enriched Sequential Learning (ESL) Approach for Molecular
Design via Augmented Domain Knowledge [1.4410716345002657]
生成機械学習技術は、分子指紋表現に基づく新しい化学構造を生成することができる。
教師付きドメイン知識の欠如は、学習手順がトレーニングデータに見られる一般的な分子に相対的に偏っていることを誤解させる可能性がある。
この欠点は、例えば薬物類似度スコア(QED)の定量的推定など、ドメイン知識でトレーニングデータを増強することで軽減した。
論文 参考訳(メタデータ) (2022-04-05T20:16:11Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - Learning To Navigate The Synthetically Accessible Chemical Space Using
Reinforcement Learning [75.95376096628135]
ド・ノボ薬物設計のための強化学習(RL)を利用した新しい前方合成フレームワークを提案する。
このセットアップでは、エージェントは巨大な合成可能な化学空間をナビゲートする。
本研究は,合成可能な化学空間を根本的に拡張する上で,エンド・ツー・エンド・トレーニングが重要なパラダイムであることを示す。
論文 参考訳(メタデータ) (2020-04-26T21:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。