論文の概要: GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training
- arxiv url: http://arxiv.org/abs/2509.24494v1
- Date: Mon, 29 Sep 2025 09:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.886242
- Title: GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training
- Title(参考訳): GRPO-MA:安定・高効率整合訓練のためのGRPOのマルチアンサー生成
- Authors: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong,
- Abstract要約: RL(Reinforcement Learning)アプローチであるGRPOは,大規模言語モデル(LLM)と視覚言語モデル(VLM)において,CoT(Chain-of-Thought)推論を効果的に訓練することができる。
本稿では,GRPOの3つの課題として,思考と回答の勾配結合,限られた並列サンプリングによる報酬信号の分散,不安定な優位性推定について分析する。
本稿では, GRPO-MAを提案する。GRPO-MAは, 各思考プロセスから複数問合せを生成し, より堅牢で効率的な最適化を実現する。
- 参考スコア(独自算出の注目度): 13.218620894749067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models (VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling between thoughts and answers, sparse reward signals caused by limited parallel sampling, and unstable advantage estimation. To mitigate these challenges, we propose GRPO-MA, a simple yet theoretically grounded method that leverages multi-answer generation from each thought process, enabling more robust and efficient optimization. Theoretically, we show that the variance of thought advantage decreases as the number of answers per thought increases. Empirically, our gradient analysis confirms this effect, showing that GRPO-MA reduces gradient spikes compared to GRPO. Experiments on math, code, and diverse multimodal tasks demonstrate that GRPO-MA substantially improves performance and training efficiency. Our ablation studies further reveal that increasing the number of answers per thought consistently enhances model performance.
- Abstract(参考訳): DeepSeek-R1のような最近の進歩は、強化学習(RL)アプローチであるGRPOアルゴリズムが、大規模言語モデル(LLM)と視覚言語モデル(VLM)におけるチェーン・オブ・ソート(CoT)推論を効果的に訓練できることを示している。
本稿では,GRPOの3つの課題として,思考と回答の勾配結合,限られた並列サンプリングによる報酬信号の分散,不安定な優位性推定について分析する。
これらの課題を軽減するため, GRPO-MAを提案する。GRPO-MAは, 各思考プロセスから複数回答を生成するシンプルな手法であり, より堅牢で効率的な最適化を実現する。
理論的には、思考ごとの回答数が増加するにつれて、思考優位性のばらつきが減少することを示す。
その結果,GRPO-MAはGRPOに比べて勾配のスパイクを減少させることがわかった。
数学、コード、多種多様なマルチモーダルタスクの実験は、GRPO-MAが性能と訓練効率を大幅に改善することを示した。
我々のアブレーション研究は、考えごとの回答数の増加がモデル性能を継続的に向上することをさらに明らかにしている。
関連論文リスト
- EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity [7.818698554631196]
グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。
我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:23:58Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。