論文の概要: It Takes Two: Your GRPO Is Secretly DPO
- arxiv url: http://arxiv.org/abs/2510.00977v1
- Date: Wed, 01 Oct 2025 14:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.624671
- Title: It Takes Two: Your GRPO Is Secretly DPO
- Title(参考訳): GRPOは秘密裏にDPO
- Authors: Yihong Wu, Liheng Ma, Lei Ding, Muzhi Li, Xinyu Wang, Kejia Chen, Zhan Su, Zhanguang Zhang, Chenyang Huang, Yingxue Zhang, Mark Coates, Jian-Yun Nie,
- Abstract要約: Group Relative Policy Optimization (GRPO) は、大規模言語モデル(LLM)の強化学習アルゴリズムである。
GRPOは、正確な統計的推定によって安定したトレーニングを確保するために、大きなグループサイズを必要とすると一般的に信じられている。
本研究では,GRPOをコントラスト学習の形式とすることで,直接選好最適化(DPO)との基本的な関係を明らかにすることで,この仮定に挑戦する。
- 参考スコア(独自算出の注目度): 36.515489570109985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) is a prominent reinforcement learning algorithm for post-training Large Language Models (LLMs). It is commonly believed that GRPO necessitates a large group size to ensure stable training via precise statistical estimation, which incurs substantial computational overhead. In this work, we challenge this assumption by reframing GRPO as a form of contrastive learning, which reveals a fundamental connection to Direct Preference Optimization (DPO). Motivated by DPO's empirical success, we investigate the minimal two-rollout case (2-GRPO), a configuration previously deemed infeasible. We provide a rigorous theoretical analysis to validate 2-GRPO and demonstrate empirically that it achieves performance on par with 16-GRPO, despite using only 1/8 of the rollouts and reducing training time by over 70%.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) は、大規模言語モデル (LLM) の強化学習アルゴリズムである。
GRPOは、正確な統計的推定によって安定したトレーニングを確保するために、大きなグループサイズを必要とすると一般的に信じられている。
本研究では,GRPOをコントラスト学習の形式として再定義することで,直接選好最適化(DPO)と基本的な関係を明らかにすることで,この仮定に挑戦する。
DPOの実証的成功に触発され,従来は実現不可能と考えられていた最小2ロールアウト症例(2-GRPO)について検討した。
ロールアウトの1/8しか使用せず、トレーニング時間を70%以上削減したにもかかわらず、2-GRPOを検証し、16-GRPOに匹敵する性能を実証する厳密な理論解析を行った。
関連論文リスト
- GRPO is Secretly a Process Reward Model [5.637496960655903]
GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
論文 参考訳(メタデータ) (2025-09-25T13:40:36Z) - Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。