論文の概要: S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.07686v1
- Date: Mon, 12 May 2025 15:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.46474
- Title: S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
- Title(参考訳): S-GRPO:推論モデルにおける強化学習による早期活動
- Authors: Muzhi Dai, Chenxu Yang, Qingyi Si,
- Abstract要約: 本稿では,シリアル・グループ・デカイイング・リワード政策最適化を提案する。
これはモデルに推論ステップの十分性を決定する能力を与え、その後CoT生成の早期終了を誘発する。
直列群における正解に対しては、位置に応じて減衰する報酬を割り当て、後者に対して低い報酬を与える。
- 参考スコア(独自算出の注目度): 2.9925837108958864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Test-Time Scaling emerges as an active research focus in the large language model community, advanced post-training methods increasingly emphasize extending chain-of-thought (CoT) generation length, thereby enhancing reasoning capabilities to approach Deepseek R1-like reasoning models. However, recent studies reveal that reasoning models (even Qwen3) consistently exhibit excessive thought redundancy in CoT generation. This overthinking problem stems from conventional outcome-reward reinforcement learning's systematic neglect in regulating intermediate reasoning steps. This paper proposes Serial-Group Decaying-Reward Policy Optimization (namely S-GRPO), a novel reinforcement learning method that empowers models with the capability to determine the sufficiency of reasoning steps, subsequently triggering early exit of CoT generation. Specifically, unlike GRPO, which samples multiple possible completions (parallel group) in parallel, we select multiple temporal positions in the generation of one CoT to allow the model to exit thinking and instead generate answers (serial group), respectively. For the correct answers in a serial group, we assign rewards that decay according to positions, with lower rewards towards the later ones, thereby reinforcing the model's behavior to generate higher-quality answers at earlier phases with earlier exits of thinking. Empirical evaluations demonstrate compatibility with state-of-the-art reasoning models, including Qwen3 and Deepseek-distill models, achieving 35.4% ~ 61.1\% sequence length reduction with 0.72% ~ 6.08% accuracy improvements across GSM8K, AIME 2024, AMC 2023, MATH-500, and GPQA Diamond benchmarks.
- Abstract(参考訳): 大規模な言語モデルコミュニティにおいて、テストタイムスケーリングが活発な研究対象として浮上するにつれて、高度なポストトレーニング手法は、チェーン・オブ・思想(CoT)生成長の延長をますます強調し、Deepseek R1のような推論モデルにアプローチするための推論能力を高める。
しかし、最近の研究では、CoT生成において推論モデル(Qwen3)が常に過剰な思考冗長性を示すことが示されている。
この過剰思考問題は、中間的推論ステップの規制において、従来の帰納的強化学習が体系的に無視していることに起因している。
本稿では,S-GRPO(Serial-Group Decaying-Reward Policy Optimization, S-GRPO)を提案する。
具体的には、複数の可能な完了点(並列群)を並列にサンプリングするGRPOとは異なり、1つのCoTの生成において複数の時間的位置を選択して、モデルを思考から外し、代わりに回答(シリアル群)を生成する。
直列群の正解に対しては、位置に応じて減衰する報酬を割り当て、後続の報酬に対して低い報酬を与える。
実証的な評価では、Qwen3やDeepseekのような最先端の推論モデルとの互換性を示し、GSM8K、AIME 2024、AMC 2023、MATH-500、GPQA Diamondベンチマークで35.4%~61.1\%のシーケンス長削減を実現した。
関連論文リスト
- Dynamic Early Exit in Reasoning Models [14.508648537186989]
長いチェーン・オブ・シークレット(CoT)生成における再考は、問題解決の効率を遅くする。
本研究では,LLMが生成時に早期終了によってCoT配列を自己トランケートする手法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation [40.861314212279474]
メタスタブルマルコフプロセスとしてチェーン・オブ・シント(CoT)生成による推論時間計算について検討する。
スパースエッジに報酬を与える検索プロトコルの実装は、異なるクラスタに到達するための期待するステップ数を減らし、CoTを改善することを実証する。
また,検索によって得られる情報を利用して,より優れた推論モデルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-02T18:19:14Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。