論文の概要: Group Sequence Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.18071v2
- Date: Mon, 28 Jul 2025 11:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.065275
- Title: Group Sequence Policy Optimization
- Title(参考訳): グループシーケンスポリシー最適化
- Authors: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin,
- Abstract要約: Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。
GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
- 参考スコア(独自算出の注目度): 55.40088895148603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
- Abstract(参考訳): 本稿では,大規模言語モデルの学習のための安定的,効率的,かつ高性能な強化学習アルゴリズムであるGSPO(Group Sequence Policy Optimization)を紹介する。
トークンレベルの重要度比を採用する従来のアルゴリズムとは異なり、GSPOはシーケンスの確率に基づいて重要度比を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
GSPOはGRPOアルゴリズムよりも優れた訓練効率と性能を実現し、特にMixture-of-Experts (MoE) RLトレーニングを安定させ、RLインフラストラクチャの設計を簡素化する可能性を秘めている。
これらのGSPOの利点は、最新のQwen3モデルの顕著な改善に寄与している。
関連論文リスト
- On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning [36.00719049772089]
本稿では,信頼領域選好近似(TRPA)アルゴリズムを提案する。
好みに基づくアルゴリズムとして、TRPAは報酬ハッキングの問題を自然に排除する。
実験の結果,TRPAは推論タスクの競争性能だけでなく,安定度も高いことがわかった。
論文 参考訳(メタデータ) (2025-04-06T15:48:26Z) - Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning [0.0]
Entropy-Guided Sequence Weighting (EGSW) は、探査・探査のトレードオフを強化する新しいアプローチである。
EGSWは、ポリシー更新のバランスをとるために、エントロピー正規化とアドバンテージベースの重み付けを統合する。
論文 参考訳(メタデータ) (2025-03-28T14:07:51Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - PGSO: Prompt-based Generative Sequence Optimization Network for Aspect-based Sentiment Analysis [9.617652261815671]
ルールベースの静的最適化とスコアベースの動的最適化という2つのシーケンス最適化戦略を導入する。
動的最適化構造に基づいて、統一されたPromptベースの生成系列最適化ネットワーク(PGSO)を提案する。
複数のベンチマークで4つのABSAタスクで実施された実験は、PGSOが最先端の手法より優れており、F1スコアの平均3.52%改善していることを示している。
論文 参考訳(メタデータ) (2024-12-01T10:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。