論文の概要: Vector Policy Optimization: Training for Diversity Improves Test-Time Search
- arxiv url: http://arxiv.org/abs/2605.22817v1
- Date: Thu, 21 May 2026 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.39284
- Title: Vector Policy Optimization: Training for Diversity Improves Test-Time Search
- Title(参考訳): ベクトルポリシー最適化: 多様性のためのトレーニングはテスト時間探索を改善する
- Authors: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal,
- Abstract要約: 本稿では,様々な下流の報酬関数を予測するために,ポリシーを明示的に訓練するRLアルゴリズムであるベクトルポリシー最適化(VPO)を提案する。
VPOは、報酬はコード生成におけるテストケースごとの正しさや、複数の異なるユーザペルソナや報酬モデルなど、実際はベクトル値で評価されることが多いことを悪用している。
- 参考スコア(独自算出の注目度): 25.300820670341427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models must now generalize out of the box to novel environments and work inside inference-scaling search procedures, such as AlphaEvolve, that select rollouts with a variety of task-specific reward functions. Unfortunately, the standard paradigm of LLM post-training optimizes a pre-specified scalar reward, often leading current LLMs to produce low-entropy response distributions and thus to struggle at displaying the diversity that inference-time search will require. We propose Vector Policy Optimization (VPO), an RL algorithm that explicitly trains policies to anticipate diverse downstream reward functions and to produce diverse solutions. VPO exploits that rewards are often vector-valued in practice, like per-test-case correctness in code generation or, say, multiple different user personas or reward models. VPO is essentially a drop-in replacement for the GRPO advantage estimator, but it trains the LLM to output a set of solutions where individual solutions specialize to different trade-offs in the vector reward space. Across four tasks, VPO matches or beats the strongest scalar RL baselines on test-time search (e.g. pass@k and best@k), with the gap widening as the search budget grows. For evolutionary search, VPO models unlock problems that GRPO models cannot solve at all. As test-time search becomes more standardized, optimizing for diversity may need to become the default post-training objective.
- Abstract(参考訳): 言語モデルは、さまざまなタスク固有の報酬関数を持つロールアウトを選択するAlphaEvolveのような推論スケーリング検索手順の中で、新しい環境に一般化されなければならない。
残念ながら、LLMポストトレーニングの標準パラダイムは、事前に規定されたスカラー報酬を最適化し、しばしば現在のLLMは低エントロピー応答分布を生成するため、推論時探索に必要な多様性を示すのに苦労する。
本稿では, 多様な下流報酬関数を予測し, 多様な解を生成するために, RL アルゴリズムであるベクトルポリシー最適化 (VPO) を提案する。
VPOは、報酬はコード生成におけるテストケースごとの正しさや、複数の異なるユーザペルソナや報酬モデルなど、実際はベクトル値で評価されることが多いことを悪用している。
VPO は基本的に GRPO 優位推定器のドロップイン置換であるが、それぞれの解がベクトル報酬空間の異なるトレードオフに特化する解の集合を出力するために LLM を訓練する。
4つのタスクでVPOは、テストタイム検索(例: pass@kと best@k)で最強のスカラーRLベースラインにマッチまたは打ち勝つ。
進化的探索では、VPOモデルはGRPOモデルでは全く解決できない問題を解き放つ。
テストタイム検索が標準化されるにつれて、多様性の最適化がトレーニング後のデフォルトの目標になる必要がある。
関連論文リスト
- Poly-EPO: Training Exploratory Reasoning Models [62.82992914206963]
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
論文 参考訳(メタデータ) (2026-04-19T22:54:19Z) - ShapE-GRPO: Shapley-Enhanced Reward Allocation for Multi-Candidate LLM Training [17.817168693366916]
既存の強化学習のポストトレーニングパラダイムは、通常、セット内のすべての候補に同じセットレベルのスカラー報酬を割り当てる。
これにより、貧弱な候補者が一人の強い仲間が生み出す高い報酬を解放するノイズの多い訓練信号が導き出され、その結果、準最適探索に繋がる。
セットレベルのユーティリティの置換不変性を活用することにより、協調ゲーム理論からシェープリー強化の定式化を導出し、セットレベルの報酬を粒度、候補固有の信号に分解する。
論文 参考訳(メタデータ) (2026-03-31T15:24:15Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Group-Aware Reinforcement Learning for Output Diversity in Large Language Models [8.356950556877612]
大規模言語モデル(LLM)は、しばしばモード崩壊に悩まされ、有効な回答が多数存在する場合でも、同じ少数の完了を繰り返し生成する。
本稿では,GAPO(Group-Aware Policy Optimization)を紹介する。GAPO(Group Relative Policy Optimization)のシンプルな拡張で,グループ全体の報酬を計算する。
周波数認識型報酬関数を用いてGAPOを実証し、有効なLLM完了に対する一様サンプリングを奨励し、GAPOが学習したモデルが有効でより多様なモデル応答を生成することを示す。
論文 参考訳(メタデータ) (2025-11-16T13:42:55Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。