Fugu-MT 論文翻訳(概要): Group Sequence Policy Optimization

論文の概要: Group Sequence Policy Optimization

arxiv url: http://arxiv.org/abs/2507.18071v2
Date: Mon, 28 Jul 2025 11:11:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 14:15:47.065275
Title: Group Sequence Policy Optimization
Title（参考訳）: グループシーケンスポリシー最適化
Authors: Chujie Zheng, Shixuan Liu, Mingze Li, Xiong-Hui Chen, Bowen Yu, Chang Gao, Kai Dang, Yuqiong Liu, Rui Men, An Yang, Jingren Zhou, Junyang Lin,
Abstract要約: Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。 GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
参考スコア（独自算出の注目度）: 55.40088895148603
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines the importance ratio based on sequence likelihood and performs sequence-level clipping, rewarding, and optimization. We demonstrate that GSPO achieves superior training efficiency and performance compared to the GRPO algorithm, notably stabilizes Mixture-of-Experts (MoE) RL training, and has the potential for simplifying the design of RL infrastructure. These merits of GSPO have contributed to the remarkable improvements in the latest Qwen3 models.
Abstract（参考訳）: 本稿では,大規模言語モデルの学習のための安定的,効率的,かつ高性能な強化学習アルゴリズムであるGSPO(Group Sequence Policy Optimization)を紹介する。トークンレベルの重要度比を採用する従来のアルゴリズムとは異なり、GSPOはシーケンスの確率に基づいて重要度比を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。 GSPOはGRPOアルゴリズムよりも優れた訓練効率と性能を実現し、特にMixture-of-Experts (MoE) RLトレーニングを安定させ、RLインフラストラクチャの設計を簡素化する可能性を秘めている。これらのGSPOの利点は、最新のQwen3モデルの顕著な改善に寄与している。

関連論文リスト

Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward [10.640867597958863]
提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
論文参考訳（メタデータ） (2025-06-05T09:13:37Z)
On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。 OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文参考訳（メタデータ） (2025-05-29T15:58:04Z)
VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文参考訳（メタデータ） (2025-05-25T06:41:28Z)
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文参考訳（メタデータ） (2025-05-22T17:59:49Z)
Trust Region Preference Approximation: A simple and stable reinforcement learning algorithm for LLM reasoning [36.00719049772089]
本稿では,信頼領域選好近似(TRPA)アルゴリズムを提案する。好みに基づくアルゴリズムとして、TRPAは報酬ハッキングの問題を自然に排除する。実験の結果,TRPAは推論タスクの競争性能だけでなく,安定度も高いことがわかった。
論文参考訳（メタデータ） (2025-04-06T15:48:26Z)
Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning [0.0]
Entropy-Guided Sequence Weighting (EGSW) は、探査・探査のトレードオフを強化する新しいアプローチである。 EGSWは、ポリシー更新のバランスをとるために、エントロピー正規化とアドバンテージベースの重み付けを統合する。
論文参考訳（メタデータ） (2025-03-28T14:07:51Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
PGSO: Prompt-based Generative Sequence Optimization Network for Aspect-based Sentiment Analysis [9.617652261815671]
ルールベースの静的最適化とスコアベースの動的最適化という2つのシーケンス最適化戦略を導入する。動的最適化構造に基づいて、統一されたPromptベースの生成系列最適化ネットワーク(PGSO)を提案する。複数のベンチマークで4つのABSAタスクで実施された実験は、PGSOが最先端の手法より優れており、F1スコアの平均3.52%改善していることを示している。
論文参考訳（メタデータ） (2024-12-01T10:49:55Z)
Orthogonally Initiated Particle Swarm Optimization with Advanced Mutation for Real-Parameter Optimization [0.04096453902709291]
本稿では,多角形PSO(orthogonal PSO with Mutation,OPSO-m)と呼ばれる拡張粒子群(PSO)を紹介する。 PSOのための改良された初期Swarmを育むための配列ベースの学習手法を提案し、Swarmベースの最適化アルゴリズムの適応性を大幅に向上させた。この記事はさらに、人口を正規グループとエリートグループに分割する、アーカイブベースの自己適応学習戦略を提示する。
論文参考訳（メタデータ） (2024-05-21T07:16:20Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。