論文の概要: Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning
- arxiv url: http://arxiv.org/abs/2603.05900v1
- Date: Fri, 06 Mar 2026 04:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.087828
- Title: Reference-guided Policy Optimization for Molecular Optimization via LLM Reasoning
- Title(参考訳): LLM推論による分子最適化のための基準誘導政策最適化
- Authors: Xuan Li, Zhanke Zhou, Zongze Li, Jiangchao Yao, Yu Rong, Lu Zhang, Bo Han,
- Abstract要約: 大規模言語モデル(LLM)は、教師付き微調整(SFT)と、推論タスクにおける検証可能な報酬(RLVR)による強化学習の恩恵を受ける。
基準分子上の応答のみのSFTは推論を崩壊させ、RLVRは類似性制約下でスパースフィードバックを提供する。
本稿では、軌道データを必要としない参照分子から学習する最適化手法である参照誘導政策最適化(RePO)を紹介する。
- 参考スコア(独自算出の注目度): 58.644854860003704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) benefit substantially from supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR) in reasoning tasks. However, these recipes perform poorly in instruction-based molecular optimization, where each data point typically provides only a single optimized reference molecule and no step-by-step optimization trajectory. We reveal that answer-only SFT on the reference molecules collapses reasoning, and RLVR provides sparse feedback under similarity constraints due to the model's lack of effective exploration, which slows learning and limits optimization. To encourage the exploration of new molecules while balancing the exploitation of the reference molecules, we introduce Reference-guided Policy Optimization (RePO), an optimization approach that learns from reference molecules without requiring trajectory data. At each update, RePO samples candidate molecules with their intermediate reasoning trajectories from the model and trains the model using verifiable rewards that measure property satisfaction under similarity constraints in an RL manner. Meanwhile, it applies reference guidance by keeping the policy's intermediate reasoning trajectory as context and training only the answer in a supervised manner. Together, the RL term promotes exploration, while the guidance term mitigates reward sparsity and stabilizes training by grounding outputs to references when many valid molecular edits exist. Across molecular optimization benchmarks, RePO consistently outperforms SFT and RLVR baselines (e.g., GRPO), achieving improvements on the optimization metric (Success Rate $\times$ Similarity), improving balance across competing objectives, and generalizing better to unseen instruction styles. Our code is publicly available at https://github.com/tmlr-group/RePO.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教師付き微調整(SFT)と推論タスクにおける検証可能な報酬(RLVR)による強化学習の恩恵が大きい。
しかし、これらのレシピは命令ベースの分子最適化では不十分であり、各データポイントは通常、1つの最適化された参照分子のみを提供し、ステップバイステップの最適化は行わない。
RLVRは、モデルが効果的な探索を欠いているため、類似性制約の下でスパースフィードバックを提供し、学習を遅くし、最適化を制限する。
基準分子の利用のバランスを保ちながら新しい分子の探索を促進するため,軌道データを必要としない基準分子から学習する最適化手法である参照誘導政策最適化(RePO)を導入する。
各更新では、RePOはモデルから中間的推論軌道を持つ候補分子をサンプリングし、RL方式で類似性制約の下で特性満足度を測定する検証可能な報酬を用いてモデルを訓練する。
一方、政策の中間的推論軌跡を文脈として保持し、指導的な方法で回答のみを訓練することにより、参照ガイダンスを適用する。
同時に、RL項は探索を促進し、ガイダンス項は報酬の空間性を緩和し、多くの有効な分子編集が存在する場合の基準に出力を接地することで訓練を安定化する。
分子最適化ベンチマーク全体を通じて、RePOはSFTとRLVRのベースライン(例えばGRPO)を一貫して上回り、最適化基準の改善(Success Rate $\times$ similarity)、競合する目的間のバランスの改善、そして目に見えない命令スタイルの一般化を実現している。
私たちのコードはhttps://github.com/tmlr-group/RePO.comで公開されています。
関連論文リスト
- BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Value-Free Policy Optimization via Reward Partitioning [0.08192907805418585]
単軌道強化学習のための新しい手法であるReward Partitioning Optimization (RPO)を導入する。
RPOは、データから直接推定されるアプローチを使用して、観察された報酬を正規化する。
我々は,Flan-T5エンコーダデコーダモデルを用いて,スカラーフィードバック言語モデリングタスクにおけるRPOの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-16T17:06:27Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。
既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。
オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文 参考訳(メタデータ) (2025-01-22T09:12:09Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。