論文の概要: POLO: Preference-Guided Multi-Turn Reinforcement Learning for Lead Optimization
- arxiv url: http://arxiv.org/abs/2509.21737v1
- Date: Fri, 26 Sep 2025 01:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.100396
- Title: POLO: Preference-Guided Multi-Turn Reinforcement Learning for Lead Optimization
- Title(参考訳): POLO:リード最適化のための優先指導型マルチTurn強化学習
- Authors: Ziqing Wang, Yibo Wen, William Pattie, Xiao Luo, Weimin Wu, Jerry Yao-Chieh Hu, Abhishek Pandey, Han Liu, Kaize Ding,
- Abstract要約: 大規模言語モデル(LLM)は、コンテキスト内学習と命令追従機能を通じて、有望なアプローチを提供する。
分離されたステップではなく、完全な最適化軌道からLLMを学習できるPOLOを提案する。
POLOはシングルプロパティタスクの平均成功率は84%、マルチプロパティタスクの平均成功率は50%である。
- 参考スコア(独自算出の注目度): 42.47130819230595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lead optimization in drug discovery requires efficiently navigating vast chemical space through iterative cycles to enhance molecular properties while preserving structural similarity to the original lead compound. Despite recent advances, traditional optimization methods struggle with sample efficiency-achieving good optimization performance with limited oracle evaluations. Large Language Models (LLMs) provide a promising approach through their in-context learning and instruction following capabilities, which align naturally with these iterative processes. However, existing LLM-based methods fail to leverage this strength, treating each optimization step independently. To address this, we present POLO (Preference-guided multi-turn Optimization for Lead Optimization), which enables LLMs to learn from complete optimization trajectories rather than isolated steps. At its core, POLO introduces Preference-Guided Policy Optimization (PGPO), a novel reinforcement learning algorithm that extracts learning signals at two complementary levels: trajectory-level optimization reinforces successful strategies, while turn-level preference learning provides dense comparative feedback by ranking intermediate molecules within each trajectory. Through this dual-level learning from intermediate evaluation, POLO achieves superior sample efficiency by fully exploiting each costly oracle call. Extensive experiments demonstrate that POLO achieves 84% average success rate on single-property tasks (2.3x better than baselines) and 50% on multi-property tasks using only 500 oracle evaluations, significantly advancing the state-of-the-art in sample-efficient molecular optimization.
- Abstract(参考訳): 薬物発見における鉛の最適化は、元の鉛化合物と構造的類似性を保ちながら、分子特性を高めるために反復サイクルを通じて広大な化学空間を効率的にナビゲートする必要がある。
近年の進歩にもかかわらず、従来の最適化手法はサンプル効率に苦慮し、限られたオラクル評価による優れた最適化性能を実現している。
大規模言語モデル(LLM)は、コンテキスト内学習と命令追従機能を通じて有望なアプローチを提供する。
しかし、既存のLCMベースの手法はこの強度を生かせず、各最適化ステップを独立に扱う。
これを解決するために,POLO(Preference-guided Multi-turn Optimization for Lead Optimization)を提案する。
軌道レベルの最適化は、成功戦略を強化し、ターンレベルの優先学習は、各軌道内の中間分子をランク付けすることで、密接な比較フィードバックを提供する。
中間評価から得られたこの二重レベル学習を通じて、POLOは、各コストのかかるオラクルコールをフル活用することで、より優れたサンプル効率を実現する。
大規模な実験により、POLOは単性タスクの平均成功率は84%(ベースラインより2.3倍)、多性タスクの平均成功率は50%(500オラクル評価のみ)であり、サンプル効率の分子最適化における最先端の進歩を示している。
関連論文リスト
- Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。