Fugu-MT 論文翻訳(概要): Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

論文の概要: Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization

arxiv url: http://arxiv.org/abs/2604.07669v1
Date: Thu, 09 Apr 2026 00:22:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.611543
Title: Reinforcement Learning with LLM-Guided Action Spaces for Synthesizable Lead Optimization
Title（参考訳）: 合成可能なリード最適化のためのLLM誘導アクション空間による強化学習
Authors: Tao Li, Kaiyuan Hou, Tuan Vinh, Monika Raj, Zhichun Guo, Carl Yang,
Abstract要約: MolReActはMarkov決定プロセスとしてリード最適化を定式化するフレームワークである。性質改善された分子を生産し、それぞれに明示的な合成経路が伴う。
参考スコア（独自算出の注目度）: 17.49869758649732
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Lead optimization in drug discovery requires improving therapeutic properties while ensuring that proposed molecular modifications correspond to feasible synthetic routes. Existing approaches either prioritize property scores without enforcing synthesizability, or rely on expensive enumeration over large reaction networks, while direct application of Large Language Models (LLMs) frequently produces chemically invalid structures. We introduce MolReAct, a framework that formulates lead optimization as a Markov Decision Process over a synthesis-constrained action space defined by validated reaction templates. A tool-augmented LLM agent serves as a dynamic reaction environment that invokes specialized chemical analysis tools to identify reactive sites and propose chemically grounded transformations from matched templates. A policy model trained via Group Relative Policy Optimization (GRPO) selects among these constrained actions to maximize long-term oracle reward across multi-step reaction trajectories. A SMILES-based caching mechanism further reduces end-to-end optimization time by approximately 43%. Across 13 property optimization tasks from the Therapeutic Data Commons and one structure-based docking task, MolReAct achieves an average Top-10 score of 0.563, outperforming the strongest synthesizable baseline by 10.4% in relative improvement, and attains the best sample efficiency on 10 of 14 tasks. Ablations confirm that both tool-augmented reaction proposals and trajectory-level policy optimization contribute complementary gains. By grounding every step in validated reaction templates, MolReAct produces molecules that are property-improved and each accompanied by an explicit synthetic pathway.
Abstract（参考訳）: 薬物発見における鉛の最適化は、提案された分子修飾が実現可能な合成経路に対応することを保証しながら、治療特性を改善することを必要とする。既存のアプローチでは、合成性を強制せずにプロパティスコアを優先順位付けするか、大規模な反応ネットワーク上での高価な列挙に依存している一方、LLM(Large Language Models)の直接適用は、しばしば化学的に無効な構造を生成する。評価された反応テンプレートによって定義された合成制約された作用空間上でのマルコフ決定過程としてリード最適化を定式化するフレームワークであるMollReActを紹介する。動的反応環境として機能し、特殊な化学分析ツールを用いて反応部位を特定し、マッチしたテンプレートから化学接地した変換を提案する。グループ相対的政策最適化(GRPO)によって訓練された政策モデルは、これらの制約された行動の中から選択され、多段階の反応軌道における長期的なオラクル報酬を最大化する。 SMILESベースのキャッシュ機構により、エンドツーエンドの最適化時間が約43%削減される。 Therapeutic Data Commonsの13のプロパティ最適化タスクと1つの構造ベースのドッキングタスクのうち、MollReActは平均トップ10スコア0.563を達成し、最も高い合成可能なベースラインを10.4%上回り、14タスク中10タスクで最高のサンプル効率を達成する。アブレーションは、ツール強化された反応提案と軌道レベルの政策最適化の両方が相補的な利得に寄与することを確認する。検証された反応テンプレートの全てのステップを基底にすることで、MollReActはプロパティ改善された分子を生成し、それぞれに明示的な合成経路が伴う。

関連論文リスト

Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning [58.644854860003704]
大規模言語モデル(LLM)は、教師付き微調整(SFT)と、推論タスクにおける検証可能な報酬(RLVR)による強化学習の恩恵を受ける。基準分子上の応答のみのSFTは推論を崩壊させ、RLVRは類似性制約下でスパースフィードバックを提供する。本稿では、軌道データを必要としない参照分子から学習する最適化手法である参照誘導政策最適化(RePO)を紹介する。
論文参考訳（メタデータ） (2026-03-06T04:39:08Z)
Modular Multi-Task Learning for Chemical Reaction Prediction [1.443416244644791]
低ランク適応(LoRA)は、有機反応予測のための完全な微調整に代わるパラメータ効率の代替である。 LoRAは完全な微調整に匹敵する精度を達成し、破滅的な忘れを効果的に軽減し、マルチタスク性能を向上する。
論文参考訳（メタデータ） (2026-02-11T01:17:06Z)
DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning [24.70952870676648]
DrugRは、明示的で段階的な薬理学的推論を最適化プロセスに導入する、大きな言語モデルである。提案手法は, ドメイン固有の事前学習, 逆データ工学による微調整, 自己バランス型多粒性強化学習を統合した。実験結果から、Dr.Rは構造的類似性や標的結合親和性を損なうことなく、複数の特性を包括的に拡張できることが示された。
論文参考訳（メタデータ） (2026-02-09T02:26:25Z)
SEISMO: Increasing Sample Efficiency in Molecular Optimization with a Trajectory-Aware LLM Agent [0.7377073690542307]
オンライン推論時間分子最適化エージェントSEISMOを紹介する。集団ベースの学習やバッチ学習を必要とせずに、すべてのオラクルコール後に更新される。従来の方法よりも曲線の2～3倍高い面積を達成し、50オラクルコール以内のタスクスコアに到達することが多い。
論文参考訳（メタデータ） (2026-01-31T11:23:48Z)
Rethinking Molecule Synthesizability with Chain-of-Reaction [47.744071119775676]
合成可能な投影のための生成フレームワークであるReaSynを紹介する。大規模言語モデル(LLM)における推論経路に類似した合成経路を考慮した新しい視点を提案する。 CoR表記により、ReaSynは化学反応規則を明示的に学習する全ての反応ステップにおいて、密集した監督を受けることができる。
論文参考訳（メタデータ） (2025-09-19T15:29:57Z)
ChemBOMAS: Accelerated BO in Chemistry with LLM-Enhanced Multi-Agent System [72.63341091857959]
本稿では,大規模言語モデル(LLM)によるベイズ最適化を高速化するマルチエージェントシステムであるChemBOMASを紹介する。データ駆動型戦略は、わずか1%のラベル付きサンプルに微調整された8BスケールのLCMレジストレータを含む。知識駆動型戦略では、検索空間の分割においてLLMを導くために、ハイブリッドなRetrieval-Augmented Generationアプローチを採用している。 ChemBOMASはベースライン方式に比べて最適化効率を最大5倍に向上させた。
論文参考訳（メタデータ） (2025-09-10T16:24:08Z)
DrugImproverGPT: A Large Language Model for Drug Optimization with Fine-Tuning via Structured Policy Optimization [53.27954325490941]
大規模言語モデル(LLM)の微調整は、特定の目的に向けて結果を生成するために不可欠である。本研究は,薬物最適化LSMに基づく生成モデルを微調整するための新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-11T04:00:21Z)
RetCL: A Selection-based Approach for Retrosynthesis via Contrastive Learning [107.64562550844146]
レトロシンセシスは深層学習の新たな研究分野である。本稿では, 市販分子の候補群から, 反応物質の選択問題へとレトロシンセシスを再構成する新しいアプローチを提案する。スコア機能を学ぶために、ハードネガティブマイニングを備えた新しいコントラストトレーニングスキームも提案します。
論文参考訳（メタデータ） (2021-05-03T12:47:57Z)
Optimizing Molecules using Efficient Queries from Property Evaluations [66.66290256377376]
汎用的なクエリベースの分子最適化フレームワークであるQMOを提案する。 QMOは効率的なクエリに基づいて入力分子の所望の特性を改善する。 QMOは, 有機分子を最適化するベンチマークタスクにおいて, 既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-03T18:51:18Z)
Molecular Design in Synthetically Accessible Chemical Space via Deep Reinforcement Learning [0.0]
既存の生成法は、最適化中に分子特性の分布を好適にシフトできる能力に制限されていると論じる。本稿では,分子設計のための新しい強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-04-29T16:29:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。