論文の概要: S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.07686v2
- Date: Sat, 17 May 2025 04:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.125239
- Title: S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
- Title(参考訳): S-GRPO:推論モデルにおける強化学習による早期活動
- Authors: Muzhi Dai, Chenxu Yang, Qingyi Si,
- Abstract要約: テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
- 参考スコア(独自算出の注目度): 2.9925837108958864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Test-Time Scaling emerges as an active research focus in the large language model community, advanced post-training methods increasingly emphasize extending chain-of-thought (CoT) generation length, thereby enhancing reasoning capabilities to approach Deepseek R1-like reasoning models. However, recent studies reveal that reasoning models (even Qwen3) consistently exhibit excessive thought redundancy in CoT generation. This overthinking issue arises from the inherent limitations of conventional outcome-reward reinforcement learning, which systematically overlooks the regulation of intermediate reasoning processes. This paper introduces Serial-Group Decaying-Reward Policy Optimization (S-GRPO), a novel reinforcement learning paradigm that enables models to implicitly evaluate the sufficiency of intermediate reasoning steps, thereby facilitating early exit in CoT generation. Unlike GRPO, which samples multiple possible reasoning paths in parallel (parallel group), S-GRPO only samples one reasoning path and serially selects multiple temporal positions from the path to exit thinking and directly generate answers (serial group). For correct answers within a serial group, rewards gradually decrease based on the exit positions along the reasoning path from front to back. This design encourages the model to produce more accurate and concise thoughts, while also incentivizing early thinking termination when appropriate. Empirical evaluations demonstrate that S-GRPO is compatible with state-of-the-art reasoning models, including Qwen3 and Deepseek-distill. Across diverse benchmarks such as GSM8K, AIME 2024, AMC 2023, MATH-500, and GPQA Diamond, S-GRPO achieves a substantial reduction in sequence length (35.4% - 61.1%) while simultaneously improving accuracy (absolute 0.72% - 6.08%).
- Abstract(参考訳): 大規模な言語モデルコミュニティにおいて、テストタイムスケーリングが活発な研究対象として浮上するにつれて、高度なポストトレーニング手法は、チェーン・オブ・思想(CoT)生成長の延長をますます強調し、Deepseek R1のような推論モデルにアプローチするための推論能力を高める。
しかし、最近の研究では、CoT生成において推論モデル(Qwen3)が常に過剰な思考冗長性を示すことが示されている。
この過剰思考問題は、中間的推論過程の規則を体系的に見落としている従来の結果逆強化学習の固有の限界から生じる。
本稿では,Serial-Group Decaying-Reward Policy Optimization (S-GRPO)について紹介する。
複数の可能な推論経路を並列(並列群)でサンプリングするGRPOとは異なり、S-GRPOは1つの推論経路のみをサンプリングし、経路から複数の時間的位置を連続的に選択し、直接回答(シリアル群)を生成する。
シリアルグループ内の正しい答えについては、前から後ろまでの推論経路に沿った出口位置に基づいて報酬が徐々に減少する。
この設計により、モデルはより正確で簡潔な思考を生み出すとともに、適切であれば早期思考の終了を動機付けることができる。
実証的な評価では、S-GRPOはQwen3やDeepseek-distillといった最先端の推論モデルと互換性があることが示されている。
GSM8K, AIME 2024, AMC 2023, MATH-500, GPQA Diamondなどの様々なベンチマークにおいて、S-GRPOはシーケンス長(35.4% - 61.1%)を大幅に削減し、精度(0.72% - 6.08%)を同時に向上させる。
関連論文リスト
- Dynamic Early Exit in Reasoning Models [14.508648537186989]
長いチェーン・オブ・シークレット(CoT)生成における再考は、問題解決の効率を遅くする。
本研究では,LLMが生成時に早期終了によってCoT配列を自己トランケートする手法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation [40.861314212279474]
メタスタブルマルコフプロセスとしてチェーン・オブ・シント(CoT)生成による推論時間計算について検討する。
スパースエッジに報酬を与える検索プロトコルの実装は、異なるクラスタに到達するための期待するステップ数を減らし、CoTを改善することを実証する。
また,検索によって得られる情報を利用して,より優れた推論モデルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-02T18:19:14Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。