論文の概要: On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence
- arxiv url: http://arxiv.org/abs/2508.02833v2
- Date: Thu, 07 Aug 2025 06:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.092902
- Title: On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence
- Title(参考訳): GRPOの理論と実践について:高速収束を用いた軌道補正アプローチ
- Authors: Lei Pang, Ruinan Jin,
- Abstract要約: Group Relative Policy Optimizationは、批判のない強化学習アルゴリズムである。
GRPO更新規則は,現行の方針よりも旧方針の政策勾配を推定する。
軌道レベルの重要度補正 GRPO という新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 2.8165669455824696
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Group Relative Policy Optimization (GRPO), recently proposed by DeepSeek, is a critic-free reinforcement learning algorithm for fine tuning large language models. It replaces the value function in Proximal Policy Optimization (PPO) with group normalized rewards, while retaining PPO style token level importance sampling based on an old policy. We show that GRPO update rule in fact estimates the policy gradient at the old policy rather than the current one. However, since the old policy is refreshed every few steps, the discrepancy between the two remains small limiting the impact of this bias in practice. We validate this through an ablation study in which importance sampling is entirely removed, and updates are instead performed using the gradient estimated at a fixed old policy across multiple optimization steps. Remarkably, this simplification results in performance comparable to standard GRPO. Motivated by these findings, we propose a new algorithm: Trajectory level Importance Corrected GRPO (TIC GRPO). TIC GRPO replaces token level importance ratios with a single trajectory level probability ratio, yielding an unbiased estimate of the current policy gradient while preserving the critic free structure. Furthermore, we present the first theoretical convergence analysis for GRPO style methods, covering both the original GRPO and our proposed variant.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO)は、DeepSeekが最近提案した、大規模言語モデルを微調整するための批判のない強化学習アルゴリズムである。
これは、PPO(Proximal Policy Optimization)の値関数をグループ正規化報酬に置き換え、PPOスタイルのトークンレベルの重要度サンプリングを古いポリシーに基づいて保持する。
GRPO更新ルールは、実際には、現在のポリシーよりも古いポリシーのポリシー勾配を見積もっていることを示す。
しかし、古い方針は数ステップごとに更新されるため、このバイアスの影響を抑えるために両者の相違は小さいままである。
重大サンプリングを完全に除去するアブレーション研究を通じてこれを検証し、代わりに複数の最適化ステップにまたがる固定された古いポリシーで見積もられた勾配を用いて更新を行う。
注目すべきは、この単純化によって標準のGRPOに匹敵するパフォーマンスが得られることだ。
これらの知見を反映して, トラジェクティブレベルの重要度補正GRPO (TIC GRPO) という新しいアルゴリズムを提案する。
TIC GRPOはトークンレベルの重要度比を1つの軌道レベルの確率比に置き換え、批判的自由構造を維持しながら現在の政策勾配の偏りのない見積もりを与える。
さらに,GRPO方式の手法に関する最初の理論的収束解析を行い,提案手法と提案した変種の両方を網羅した。
関連論文リスト
- GTPO: Trajectory-Based Policy Optimization in Large Language Models [45.799380822683034]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Reusing Trajectories in Policy Gradients Enables Fast Convergence [59.27926064817273]
政策勾配法 (PG) は効果的な強化学習アルゴリズムの一種である。
本稿では,古いトラジェクトリと新しいトラジェクトリを組み合わせたPGアルゴリズムであるRPG(Retrospective Policy Gradient)を提案する。
確立された仮定の下では、RPGは文献で最もよく知られたレートである$widetildeO(epsilon-1)$のサンプル複雑性を達成する。
論文 参考訳(メタデータ) (2025-06-06T15:42:15Z) - PPO in the Fisher-Rao geometry [0.0]
PPO(Proximal Policy Optimization)は、強化学習のアルゴリズムとして広く採用されている。
その人気にもかかわらず、PPOは政策改善と収束に関する正式な理論的保証を欠いている。
本稿では,フィッシャー・ラオ幾何におけるより強いサロゲートを導出し,新しい変種であるフィッシャー・ラオPPO(FR-PPO)を導出する。
論文 参考訳(メタデータ) (2025-06-04T09:23:27Z) - BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。
本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。
実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文 参考訳(メタデータ) (2025-06-03T13:28:57Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Proximal Policy Optimization with Relative Pearson Divergence [8.071506311915396]
PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。
本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-10-07T09:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。