論文の概要: Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR
- arxiv url: http://arxiv.org/abs/2601.05607v1
- Date: Fri, 09 Jan 2026 07:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.902613
- Title: Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR
- Title(参考訳): オーケストレーショントークンとシーケンス: RLVRのための動的ハイブリッドポリシー最適化
- Authors: Zijun Min, Bingshuai Liu, Ante Wang, Long Zhang, Anxiang Zeng, Haibo Zhang, Jinsong Su,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
- 参考スコア(独自算出の注目度): 31.43482175098666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) offers a promising framework for optimizing large language models in reasoning tasks. However, existing RLVR algorithms focus on different granularities, and each has complementary strengths and limitations. Group Relative Policy Optimization (GRPO) updates the policy with token-level importance ratios, which preserves fine-grained credit assignment but often suffers from high variance and instability. In contrast, Group Sequence Policy Optimization (GSPO) applies single sequence-level importance ratios across all tokens in a response that better matches sequence-level rewards, but sacrifices token-wise credit assignment. In this paper, we propose Dynamic Hybrid Policy Optimization (DHPO) to bridge GRPO and GSPO within a single clipped surrogate objective. DHPO combines token-level and sequence-level importance ratios using weighting mechanisms. We explore two variants of the mixing mechanism, including an averaged mixing and an entropy-guided mixing. To further stabilize training, we employ a branch-specific clipping strategy that constrains token-level and sequence-level ratios within separate trust regions before mixing, preventing outliers in either branch from dominating the update. Across seven challenging mathematical reasoning benchmarks, experiments on both dense and MoE models from the Qwen3 series show that DHPO consistently outperforms GRPO and GSPO. We will release our code upon acceptance of this paper.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
しかし、既存のRLVRアルゴリズムは様々な粒度に焦点を当てており、それぞれに相補的な強度と制限がある。
グループ相対政策最適化(GRPO)は、トークンレベルの重要度比でポリシーを更新する。
対照的に、グループシーケンスポリシー最適化(GSPO)は、すべてのトークンに対して単一のシーケンスレベルの重要度比を適用し、シーケンスレベルの報酬とよりよく一致するが、トークン単位のクレジット割り当てを犠牲にする。
本稿では,GRPO と GSPO を1つのクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシ最適化 (DHPO) を提案する。
DHPOは、重み付け機構を用いてトークンレベルとシーケンスレベルの重要度を結合する。
平均混合とエントロピー誘導混合の2種類の混合機構について検討した。
さらにトレーニングを安定させるために、異なる信頼領域内でトークンレベルとシーケンスレベルの比率を制約するブランチ固有のクリッピング戦略を採用し、どちらのブランチのアウトリアも更新を支配できないようにした。
7つの挑戦的な数学的推論ベンチマークにおいて、Qwen3シリーズの密度モデルとMoEモデルの両方の実験は、DHPOがGRPOとGSPOを一貫して上回っていることを示している。
私たちはこの論文を受理してコードを公開します。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy [5.691990020513277]
本稿では,2つの新しいアルゴリズムによる報酬の微粒化を促進するメカニズムである動的エントロピー重み付けを提案する。
報酬形成のための政策のエントロピーを再取得することで、我々は真にトークン単位の信用割り当てを達成できる。
論文 参考訳(メタデータ) (2025-08-06T11:42:47Z) - Group Sequence Policy Optimization [55.40088895148603]
Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。
GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
論文 参考訳(メタデータ) (2025-07-24T03:50:32Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。