論文の概要: Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2602.10231v1
- Date: Tue, 10 Feb 2026 19:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.249185
- Title: Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards
- Title(参考訳): 検証リワードを用いた多目的RLのブロックワイドアドバンテージ推定
- Authors: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel,
- Abstract要約: グループ相対ポリシー最適化(GRPO)は、完了時にすべてのトークンに対して単一のスカラーの利点を割り当てる。
明確なセグメントと目的を持つ構造化世代では、このカップルはセグメント間で無関係な報酬信号を生成し、客観的な干渉と不正な信用につながる。
我々は、GRPO互換メソッドのファミリーであるBlockwise Advantage Estimationを提案し、それぞれの目的をそれぞれ独自の利点を割り当て、対応するテキストブロックのトークンにのみ適用する。
- 参考スコア(独自算出の注目度): 39.489554597919145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
- Abstract(参考訳): グループ相対ポリシー最適化(GRPO)は、完了時にすべてのトークンに対して単一のスカラーの利点を割り当てる。
明確なセグメントと目的を持つ構造化世代では、このカップルはセグメント間で無関係な報酬信号を生成し、客観的な干渉と不正な信用につながる。
我々は,GRPO互換のメソッド群であるBlockwise Advantage Estimationを提案し,それぞれの目的をそれぞれの利点を割り当て,対応するテキストブロックのトークンにのみ適用し,手書きスカラー報酬への依存を低減し,追加目的に自然にスケールする。
主要な課題は、サンプルプレフィックスで報酬が条件付けられている後続ブロックの利点を推定することである。
具体的には、プレフィックス由来の中間結果に従ってサンプルを階層化することで、グループ内統計量のみを用いて中間状態値を近似するOutcome-Conditioned Baselineを提案する。
不確実性推定を伴う数学タスクでは、報酬干渉を軽減し、最先端の報酬設計アプローチと競合し、信頼度重み付けによるテストタイムゲインを維持する。
より広くは、追加のロールアウトなしで構造化世代におけるシーケンシャルな目的を最適化するためのモジュール化されたレシピを提供する。
関連論文リスト
- From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Optimistic Feasible Search for Closed-Loop Fair Threshold Decision-Making [0.0]
バンディットフィードバックからの1次元しきい値ポリシーのオンライン学習について検討する。
我々は,報酬と制約残差に対する信頼境界を維持する単純なグリッドベース手法であるOptimistic Feasible Search (OFS)を提案する。
論文 参考訳(メタデータ) (2025-12-26T10:44:40Z) - Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time [52.230936493691985]
本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:56:05Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。