論文の概要: Group Sequence Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.18071v2
- Date: Mon, 28 Jul 2025 11:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.065275
- Title: Group Sequence Policy Optimization
- Title(参考訳): グループシーケンスポリシー最適化
- Authors: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin,
- Abstract要約: Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。
GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
- 参考スコア(独自算出の注目度): 55.40088895148603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
- Abstract(参考訳): 本稿では,大規模言語モデルの学習のための安定的,効率的,かつ高性能な強化学習アルゴリズムであるGSPO(Group Sequence Policy Optimization)を紹介する。
トークンレベルの重要度比を採用する従来のアルゴリズムとは異なり、GSPOはシーケンスの確率に基づいて重要度比を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
GSPOはGRPOアルゴリズムよりも優れた訓練効率と性能を実現し、特にMixture-of-Experts (MoE) RLトレーニングを安定させ、RLインフラストラクチャの設計を簡素化する可能性を秘めている。
これらのGSPOの利点は、最新のQwen3モデルの顕著な改善に寄与している。
関連論文リスト
- Soft Sequence Policy Optimization [0.0]
我々は,非政治強化学習の目的として,ソフトシーケンスポリシー最適化(SSPO)を導入する。
SSPOは、トークンレベルの確率比を超えるソフトゲーティング関数をシーケンスレベルの重要重みに組み込む。
数学推論タスクにおいて,SSPOはトレーニングの安定性と性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-02-22T20:21:00Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Adaptive-Boundary-Clipping GRPO: Ensuring Bounded Ratios for Stable and Generalizable Training [7.404779700134294]
Adaptive-Boundary-Clipping GRPO (ABC-GRPO) はオリジナルのGRPOフレームワークの非対称かつ適応的な改良である。
ABC-GRPOは数学的推論タスクにおける標準GRPOよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2026-01-07T13:04:52Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward [10.640867597958863]
提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。
自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。
我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-05T09:13:37Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning [36.00719049772089]
本稿では,信頼領域選好近似(TRPA)アルゴリズムを提案する。
好みに基づくアルゴリズムとして、TRPAは報酬ハッキングの問題を自然に排除する。
実験の結果,TRPAは推論タスクの競争性能だけでなく,安定度も高いことがわかった。
論文 参考訳(メタデータ) (2025-04-06T15:48:26Z) - Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning [0.0]
Entropy-Guided Sequence Weighting (EGSW) は、探査・探査のトレードオフを強化する新しいアプローチである。
EGSWは、ポリシー更新のバランスをとるために、エントロピー正規化とアドバンテージベースの重み付けを統合する。
論文 参考訳(メタデータ) (2025-03-28T14:07:51Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - PGSO: Prompt-based Generative Sequence Optimization Network for Aspect-based Sentiment Analysis [9.617652261815671]
ルールベースの静的最適化とスコアベースの動的最適化という2つのシーケンス最適化戦略を導入する。
動的最適化構造に基づいて、統一されたPromptベースの生成系列最適化ネットワーク(PGSO)を提案する。
複数のベンチマークで4つのABSAタスクで実施された実験は、PGSOが最先端の手法より優れており、F1スコアの平均3.52%改善していることを示している。
論文 参考訳(メタデータ) (2024-12-01T10:49:55Z) - Orthogonally Initiated Particle Swarm Optimization with Advanced Mutation for Real-Parameter Optimization [0.04096453902709291]
本稿では,多角形PSO(orthogonal PSO with Mutation,OPSO-m)と呼ばれる拡張粒子群(PSO)を紹介する。
PSOのための改良された初期Swarmを育むための配列ベースの学習手法を提案し、Swarmベースの最適化アルゴリズムの適応性を大幅に向上させた。
この記事はさらに、人口を正規グループとエリートグループに分割する、アーカイブベースの自己適応学習戦略を提示する。
論文 参考訳(メタデータ) (2024-05-21T07:16:20Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。