論文の概要: Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO
- arxiv url: http://arxiv.org/abs/2505.11595v1
- Date: Fri, 16 May 2025 18:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.730239
- Title: Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO
- Title(参考訳): スペクトルポリシー最適化:GRPOにおける誤った推論の色付け
- Authors: Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin,
- Abstract要約: グループ相対政策最適化(GRPO)は、グループ内のすべてのサンプル応答が正しくない場合に停止する。
GRPOにおける全負サンプルグループ内の応答多様性をAIフィードバックを用いて導入するフレームワークを提案する。
提案手法を実証的に検証し,様々なモデルサイズにまたがる性能向上を示す。
- 参考スコア(独自算出の注目度): 21.369307672809366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has demonstrated significant success in enhancing reasoning capabilities in large language models (LLMs). One of the most widely used RL methods is Group Relative Policy Optimization (GRPO)~\cite{Shao-2024-Deepseekmath}, known for its memory efficiency and success in training DeepSeek-R1~\cite{Guo-2025-Deepseek}. However, GRPO stalls when all sampled responses in a group are incorrect -- referred to as an \emph{all-negative-sample} group -- as it fails to update the policy, hindering learning progress. The contributions of this paper are two-fold. First, we propose a simple yet effective framework that introduces response diversity within all-negative-sample groups in GRPO using AI feedback. We also provide a theoretical analysis, via a stylized model, showing how this diversification improves learning dynamics. Second, we empirically validate our approach, showing the improved performance across various model sizes (7B, 14B, 32B) in both offline and online learning settings with 10 benchmarks, including base and distilled variants. Our findings highlight that learning from all-negative-sample groups is not only feasible but beneficial, advancing recent insights from \citet{Xiong-2025-Minimalist}.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)における推論能力の向上に成功している。
最も広く使われているRL手法の1つはグループ相対ポリシー最適化(GRPO)~\cite{Shao-2024-Deepseekmath}であり、そのメモリ効率とDeepSeek-R1~\cite{Guo-2025-Deepseek}のトレーニング成功で知られている。
しかし、GRPOは、グループ内のすべてのサンプル応答が間違っていて("emph{all- negative-sample} group"と呼ばれる)、ポリシーの更新に失敗し、学習の進歩を妨げる。
本論文の貢献は2つある。
まず、AIフィードバックを用いて、GRPO内の全負サンプルグループに応答の多様性を導入する、シンプルで効果的なフレームワークを提案する。
また、この多様化が学習力学をどのように改善するかを示すスタイリングモデルを用いて理論的解析を行う。
第2に,本手法を実証的に検証し,オフラインおよびオンラインの学習環境におけるモデルサイズ(7B,14B,32B)のさまざまな性能向上を,ベースおよび蒸留変種を含む10のベンチマークで実証した。
以上の結果から,全陰性群からの学習は有益であるだけでなく,近年の \citet{Xiong-2025-Minimalist} の知見を推し進めることが示唆された。
関連論文リスト
- SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。