論文の概要: Scaffold-Conditioned Preference Triplets for Controllable Molecular Optimization with Large Language Models
- arxiv url: http://arxiv.org/abs/2604.12350v1
- Date: Tue, 14 Apr 2026 06:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.290873
- Title: Scaffold-Conditioned Preference Triplets for Controllable Molecular Optimization with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた制御可能な分子最適化のためのスケジュール記述型参照トリプレット
- Authors: Yi Xiong, Liang Xiong, Xiaohong Ji, Sen Yang, Zhifeng Gao, Huaimin Wang, Kele Xu,
- Abstract要約: textbfScaffold-Conditioned Preference Triplets (SCPT)は、類似性に制約のある三重項を$langletextscaffold, textbetter, textworserangle$で構築するパイプラインで、足場アライメントと、妥当性、合成性、有意義なプロパティゲインのための化学駆動フィルタである。
一般の非LLM分子最適化法と比較して,SCPT学習LLMは足場制約や多目的最適化に適している。
- 参考スコア(独自算出の注目度): 32.68069719676566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular property optimization is central to drug discovery, yet many deep learning methods rely on black-box scoring and offer limited control over scaffold preservation, often producing unstable or biologically implausible edits. While large language models (LLMs) are promising molecular generators, optimization remains constrained by the lack of chemistry-grounded preference supervision and principled data curation. We introduce \textbf{Scaffold-Conditioned Preference Triplets (SCPT)}, a pipeline that constructs similarity-constrained triplets $\langle\text{scaffold}, \text{better}, \text{worse}\rangle$ via scaffold alignment and chemistry-driven filters for validity, synthesizability, and meaningful property gains. Using these preferences, we align a pretrained molecular LLM as a conditional editor, enabling property-improving edits that retain the scaffold. Across single- and multi-objective benchmarks, SCPT improves optimization success and property gains while maintaining higher scaffold similarity than competitive baselines. Compared with representative non-LLM molecular optimization methods, SCPT-trained LLMs are better suited to scaffold-constrained and multi-objective optimization. In addition, models trained on single-property and two-property supervision generalize effectively to three-property tasks, indicating promising extrapolative generalization under limited higher-order supervision. SCPT also provides controllable data-construction knobs that yield a predictable similarity-gain frontier, enabling systematic adaptation to diverse optimization regimes.
- Abstract(参考訳): 分子特性の最適化は薬物発見の中心であるが、多くのディープラーニング手法はブラックボックスのスコアリングに依存し、足場保存を限定的に制御する。
大規模言語モデル (LLM) は有望な分子生成器であるが、化学式に基づく選好の監督やデータキュレーションの欠如により、最適化は依然として制約されている。
類似性に制約された三重項 $\langle\text{scaffold}, \text{better}, \text{worse}\rangle$ を足場アライメントと化学駆動フィルタを用いて構築し, 妥当性, 合成性, 有意義な特性の利得を示すパイプラインである。
これらの選好を用いて、プレトレーニングされた分子LLMを条件付きエディタとして整列し、スキャフォールドを保持するプロパティ改善編集を可能にする。
シングルオブジェクトとマルチオブジェクトのベンチマーク全体で、SCPTは最適化の成功とプロパティゲインを改善しながら、競合するベースラインよりも高い足場類似性を維持する。
一般の非LLM分子最適化法と比較して,SCPT学習LLMは足場制約や多目的最適化に適している。
さらに、単一プロパティと2プロパティの監督で訓練されたモデルは、3プロパティのタスクに効果的に一般化し、高次監督下での有望な外挿的一般化を示す。
SCPTはまた、予測可能な類似性獲得フロンティアをもたらす制御可能なデータ構築ノブを提供し、多様な最適化体制への体系的な適応を可能にする。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Bayesian Optimization for Molecules Should Be Pareto-Aware [6.877358955271652]
多目的ベイズ最適化(MOBO)は、分子設計におけるトレードオフをナビゲートするための原則的な枠組みを提供する。
我々は、期待改善(EI)を用いた単純な固定重スカラー化ベースラインに対して単純なMOBO戦略をベンチマークする。
以上の結果から, 強い決定論的インスタンス化であっても, 低データ体制下では性能が低下する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-18T07:12:19Z) - Mitigating Hallucination Through Theory-Consistent Symmetric Multimodal Preference Optimization [69.05600758833471]
マルチモーダル大言語モデル(MLLM)における幻覚を緩和するための効果的なアプローチとして、直接選好最適化(DPO)が登場している。
我々は、直接選好監督(応答対)を伴う対称選好学習を行うシンメトリ・マルチモーダル選好最適化(SymMPO)を提案する。
従来の順序的嗜好学習に加えて、SymMPOは、左右の選好ペア間の選好ギャップを定量的に調節する、選好マージン整合性損失を導入している。
論文 参考訳(メタデータ) (2025-06-13T12:29:15Z) - Large Language Models for Controllable Multi-property Multi-objective Molecule Optimization [2.152507712409726]
我々はC-MuMOInstructを紹介した。C-MuMOInstructは、明示的でプロパティ固有の目的を持つマルチプロパティ最適化に焦点を当てた最初の命令チューニングデータセットである。
GeLLMO-Cs は命令調整型 LLM で,目標となるプロパティ固有の最適化を行うことができる。
実験の結果,GeLLMO-Csは高いベースラインを一貫して上回り,最大126%の成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T20:29:14Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - ScaffoldGPT: A Scaffold-based GPT Model for Drug Optimization [3.240904428766923]
分子足場に基づく薬物最適化のためのGPT(Generative Pretrained Transformer)であるScaffoldGPTを紹介する。
3段階の薬物最適化アプローチは、事前訓練、微調整、復号最適化を統合している。
我々は、ScaffoldGPTが薬物最適化ベンチマークにおいて競合するベースラインを上回っている新型コロナウイルスとがんのベンチマークに関する総合的な評価を通じて、実証を行う。
論文 参考訳(メタデータ) (2025-02-09T10:36:33Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - DecompOpt: Controllable and Decomposed Diffusion Models for Structure-based Molecular Optimization [49.85944390503957]
DecompOptは、制御可能・拡散モデルに基づく構造に基づく分子最適化手法である。
DecompOptは強いde novoベースラインよりも優れた特性を持つ分子を効率よく生成できることを示す。
論文 参考訳(メタデータ) (2024-03-07T02:53:40Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。