論文の概要: TSSR: Two-Stage Swap-Reward-Driven Reinforcement Learning for Character-Level SMILES Generation
- arxiv url: http://arxiv.org/abs/2601.04521v1
- Date: Thu, 08 Jan 2026 02:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.999885
- Title: TSSR: Two-Stage Swap-Reward-Driven Reinforcement Learning for Character-Level SMILES Generation
- Title(参考訳): TSSR:文字レベルSMILES生成のための2段階スワップ・リワード駆動強化学習
- Authors: Jacob Ede Levine, Yun Lyan Luo, Sai Chandra Kosaraju,
- Abstract要約: TSSRは文字レベルSMILES生成のためのSwap-Reward駆動の強化学習フレームワークである。
これは、構文を修復するローカルトークンスワップに報酬を与え、無効からパース可能な文字列への遷移を促進する。
スパース端末の目的をより密度が高く、より解釈可能な報酬に変換し、多様性を低下させることなく、構文的および化学的品質の両方を改善する。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of reliable, valid, and diverse molecules is fundamental to modern drug discovery, as improved molecular generation supports efficient exploration of the chemical space for potential drug candidates and reduces the cost of early design efforts. Despite these needs, current chemical language models that generate molecules as SMILES strings are vulnerable to compounding token errors: many samples are unparseable or chemically implausible, and hard constraints meant to prevent failure can restrict exploration. To address this gap, we introduce TSSR, a Two-Stage, Swap-Reward-driven reinforcement learning (RL) framework for character-level SMILES generation. Stage one rewards local token swaps that repair syntax, promoting transitions from invalid to parseable strings. Stage two provides chemistry-aware feedback from RDKit diagnostics, rewarding reductions in valence, aromaticity, and connectivity issues. The reward decomposes into interpretable terms (swap efficiency, error reduction, distance to validity), is model agnostic, and requires no task-specific labels or hand-crafted grammars. We evaluated TSSR on the MOSES benchmark using a GRU policy trained with PPO in both pure RL (P-RL) from random initialization and fine-tuning RL (F-RL) starting from a pretrained chemical language model, assessing 10,000 generated SMILES per run. In P-RL, TSSR significantly improves syntactic validity, chemical validity, and novelty. In F-RL, TSSR preserves drug-likeness and synthesizability while increasing validity and novelty. Token-level analysis shows that syntax edits and chemistry fixes act jointly to reduce RDKit detected errors. TSSR converts a sparse terminal objective into a denser and more interpretable reward, improving both syntactic and chemical quality without reducing diversity. TSSR is dataset-agnostic and can be adapted to various reinforcement learning approaches.
- Abstract(参考訳): 信頼性、有効、多様な分子の設計は、改良された分子生成が潜在的な薬物候補のための化学空間の効率的な探索を支援し、初期設計のコストを削減し、現代の薬物発見の基礎となる。
これらのニーズにもかかわらず、SMILES文字列として分子を生成する現在の化学言語モデルは、トークンエラーの複合に対して脆弱である。
このギャップに対処するために、文字レベルSMILES生成のための2段階スワップ・リワード駆動強化学習(RL)フレームワークTSSRを導入する。
ステージ1は、構文を修復するローカルトークンスワップを報酬し、無効からパース可能な文字列への遷移を促進する。
ステージ2は、RDKit診断からの化学的なフィードバック、原子価の低下、芳香性、接続性の問題に対する報奨を提供する。
報酬は解釈可能な用語(スワップ効率、エラー低減、妥当性までの距離)に分解され、モデル非依存であり、タスク固有のラベルや手作り文法を必要としない。
TSSR を MOSES ベンチマークで評価し,PPO で訓練した GRU ポリシーをランダム初期化と,事前学習した化学言語モデルから始まる微調整 RL (F-RL) の両方から評価し,1回当たり10,000 個のSMILES を評価した。
P-RLでは、TSSRは構文的妥当性、化学的妥当性、新規性を大幅に改善する。
F-RLでは、TSSRは薬の類似性と合成性を保ちつつ、妥当性と新規性を高めている。
トークンレベルの分析は、RDKit検出エラーを減らすために、構文編集と化学修正が共同で動作することを示している。
TSSRはスパース端末の目的をより密度が高く解釈可能な報酬に変換し、多様性を低下させることなく、構文的および化学的品質の両方を改善する。
TSSRはデータセットに依存しないため、様々な強化学習アプローチに適応することができる。
関連論文リスト
- LANTERN: A Machine Learning Framework for Lipid Nanoparticle Transfection Efficiency Prediction [22.613971394957368]
効率的な脂質ナノ粒子(LNP)を介するRNA輸送のための新しいイオン化可能な脂質は、RNAベースの治療開発において重要なボトルネックとなっている。
近年の進歩は、分子構造からの透過効率を予測する機械学習(ML)の可能性を強調している。
ここでは, イオン化可能な脂質表現に基づく透過効率予測のための堅牢なMLフレームワークであるLANTERNを提案する。
論文 参考訳(メタデータ) (2025-07-03T22:49:49Z) - Leveraging Partial SMILES Validation Scheme for Enhanced Drug Design in Reinforcement Learning Frameworks [8.498666820216066]
本稿では,PSV-PPO(Partial SMILES Validation-PPO)を提案する。
PSV-PPOは、選択されたトークン候補だけでなく、前の部分シーケンスから派生したすべての電位分岐を評価し、各自己回帰ステップで段階的に検証する。
PMO と GuacaMol のベンチマークデータセットを用いた実験により,PSV-PPO が不正な生成構造を著しく減少させることが示された。
論文 参考訳(メタデータ) (2025-05-01T13:57:20Z) - Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries [51.72836644350993]
マルチモーダルプレトレーニング DEL-Fusion Model (MPDF)
我々は,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発する。
本稿では, 原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T17:32:21Z) - Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation [38.76977853056086]
Chemma-RCは、タスク固有の対話と条件生成を通じて有効な条件を識別するテキスト拡張マルチモーダルLLMである。
Chemma-RCは、複数のモダリティ(テキストコーパス、反応SMILES、反応グラフを含む)を共有埋め込みモジュールで整列させることで、化学反応の統一的な表現を学習する。
データセットのパフォーマンスベンチマークは、最適な条件を特定する上で高い精度を示し、最先端の手法よりも最大17%改善した。
論文 参考訳(メタデータ) (2024-07-21T12:27:26Z) - Learning Structurally Stabilized Representations for Multi-modal Lossless DNA Storage [32.00500955709341]
Reed-Solomon coded single-stranded representation learningはDNAストレージの表現を学習するための新しいエンドツーエンドモデルである。
既存の学習手法とは対照的に、RSRLは誤り訂正と構造生物学の両方に着想を得ている。
その結果、RSRLは、情報密度と耐久性がはるかに高いがエラー率がはるかに低い様々な種類のデータを格納できることを示した。
論文 参考訳(メタデータ) (2024-07-17T06:31:49Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Contextual Molecule Representation Learning from Chemical Reaction
Knowledge [24.501564702095937]
本稿では,共通化学における原子結合規則をうまく利用した自己教師型学習フレームワークREMOを紹介する。
REMOは、文献における170万の既知の化学反応に関するグラフ/トランスフォーマーエンコーダを事前訓練する。
論文 参考訳(メタデータ) (2024-02-21T12:58:40Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。