論文の概要: C-MORAL: Controllable Multi-Objective Molecular Optimization with Reinforcement Alignment for LLMs
- arxiv url: http://arxiv.org/abs/2604.23061v1
- Date: Fri, 24 Apr 2026 23:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.131503
- Title: C-MORAL: Controllable Multi-Objective Molecular Optimization with Reinforcement Alignment for LLMs
- Title(参考訳): C-Moral:LLMの強化アライメントによる制御可能な多目的分子最適化
- Authors: Rui Gao, Youngseung Jeon, Swastik Roy, Morteza Ziyadi, Xiang 'Anthony' Chen,
- Abstract要約: C-Moralは、制御可能な多目的分子最適化のための強化学習フレームワークである。
C-MuMOInstructベンチマークの実験は、C-Moralが常に最先端のモデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 16.006924868560795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) show promise for molecular optimization, but aligning them with selective and competing drug-design constraints remains challenging. We propose C-Moral, a reinforcement learning post-training framework for controllable multi-objective molecular optimization. C-Moral combines group-based relative optimization, property score alignment for heterogeneous objectives, and continuous non-linear reward aggregation to improve stability across competing properties. Experiments on the C-MuMOInstruct benchmark show that C-Moral consistently outperforms state-of-the-art models across both in-domain and out-of-domain settings, achieving the best Success Optimized Rate (SOR) of 48.9% on IND tasks and 39.5% on OOD tasks, while largely preserving scaffold similarity. These results suggest that RL post-training is an effective way to align molecular language models with continuous molecular design objectives. Our code and models are publicly available at https://github.com/Rwigie/C-MORAL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、分子最適化の約束を示すが、それらを選択的で競合する薬物設計の制約と整合させることは依然として困難である。
制御可能な多目的分子最適化のための強化学習後学習フレームワークであるC-Moralを提案する。
C-Moralは、群に基づく相対最適化、不均一な目的に対する特性スコアアライメント、および連続非線形報酬アグリゲーションを組み合わせて、競合する性質の安定性を向上させる。
C-MuMOInstructベンチマークの実験では、C-Moralはドメイン内およびドメイン外の両方で常に最先端のモデルより優れており、INDタスクでは48.9%、OODタスクでは39.5%の最高成功率(SOR)を達成している。
これらの結果は,RLポストトレーニングが分子言語モデルと連続的な分子設計の目的を一致させる有効な方法であることを示している。
私たちのコードとモデルはhttps://github.com/Rwigie/C-MORAL.comで公開されています。
関連論文リスト
- Scaffold-Conditioned Preference Triplets for Controllable Molecular Optimization with Large Language Models [32.68069719676566]
textbfScaffold-Conditioned Preference Triplets (SCPT)は、類似性に制約のある三重項を$langletextscaffold, textbetter, textworserangle$で構築するパイプラインで、足場アライメントと、妥当性、合成性、有意義なプロパティゲインのための化学駆動フィルタである。
一般の非LLM分子最適化法と比較して,SCPT学習LLMは足場制約や多目的最適化に適している。
論文 参考訳(メタデータ) (2026-04-14T06:38:07Z) - Composable Score-based Graph Diffusion Model for Multi-Conditional Molecular Generation [85.58520120011269]
本研究では,具体的スコアを用いてスコアマッチングを離散グラフに拡張するComposable Score-based Graph Diffusion Model (CSGD)を提案する。
CSGDは従来の手法よりも平均15.3%の制御性向上を実現していることを示す。
本研究は, 離散グラフ生成におけるスコアベースモデリングの実用的利点と, フレキシブルでマルチプロパタイトな分子設計のためのキャパシティを強調した。
論文 参考訳(メタデータ) (2025-09-11T13:37:56Z) - Discrete Diffusion Trajectory Alignment via Stepwise Decomposition [80.66701883088935]
離散拡散モデルに対する軌道アライメントにアプローチするオフライン選好最適化法を提案する。
問題をステップ毎の後部をマッチングすることにより、段階的にアライメントする目的の集合に分解する。
DNA配列設計、タンパク質の逆フォールディング、言語モデリングを含む複数の領域にわたる実験は、我々のアプローチの優位性を一貫して示している。
論文 参考訳(メタデータ) (2025-07-07T09:52:56Z) - Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization [2.152507712409726]
我々はC-MuMOInstructを紹介した。C-MuMOInstructは、明示的でプロパティ固有の目的を持つマルチプロパティ最適化に焦点を当てた最初の命令チューニングデータセットである。
GeLLMO-Cs は命令調整型 LLM で,目標となるプロパティ固有の最適化を行うことができる。
実験の結果,GeLLMO-Csは高いベースラインを一貫して上回り,最大126%の成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T20:29:14Z) - Empower Structure-Based Molecule Optimization with Gradient Guided Bayesian Flow Networks [16.743187639189976]
構造に基づく分子最適化(SBMO)は、タンパク質標的に対して連続座標と離散型の両方で分子を最適化することを目的としている。
MolJOは勾配に基づくフレームワークで、様々なモダリティのジョイントガイダンス信号を容易にする。
MolJOはCrossDocked 2020ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-20T12:48:29Z) - DecompOpt: Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization [49.85944390503957]
DecompOptは、制御可能・拡散モデルに基づく構造に基づく分子最適化手法である。
DecompOptは強いde novoベースラインよりも優れた特性を持つ分子を効率よく生成できることを示す。
論文 参考訳(メタデータ) (2024-03-07T02:53:40Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。