論文の概要: Step-GRPO: Internalizing Dynamic Early Exit for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2604.16890v1
- Date: Sat, 18 Apr 2026 07:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.220682
- Title: Step-GRPO: Internalizing Dynamic Early Exit for Efficient Reasoning
- Title(参考訳): Step-GRPO:効率的な推論のための動的初期出力を内部化
- Authors: Benteng Chen, Weida Wang, Shufei Zhang, Mingbao Lin, Min Zhang,
- Abstract要約: Step-GRPOはモデルに直接動的初期出力機能を内部化する。
本手法はバニラモデルと比較してトークン消費量を32.0%削減する。
- 参考スコア(独自算出の注目度): 39.067556802856444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models that use long chain-of-thought excel at problem-solving yet waste compute on redundant checks. Curbing this overthinking is hard: training-time length penalties can cripple ability, while inference-time early-exit adds system overhead. To bridge this gap, we propose Step-GRPO, a novel post-training framework that internalizes dynamic early-exit capabilities directly into the model. Step-GRPO shifts the optimization objective from raw tokens to semantic steps by utilizing linguistic markers to structure reasoning. We introduce a Dynamic Truncated Rollout mechanism that exposes the model to concise high-confidence trajectories during exploration, synergized with a Step-Aware Relative Reward that dynamically penalizes redundancy based on group-level baselines. Extensive experiments across three model sizes on diverse benchmarks demonstrate that Step-GRPO achieves a superior accuracy-efficiency trade-off. On Qwen3-8B, our method reduces token consumption by 32.0\% compared to the vanilla model while avoiding the accuracy degradation observed in traditional length-penalty methods.
- Abstract(参考訳): 長いチェーン・オブ・シークレットを使用する大規模な推論モデルは、問題解決では優れているが、冗長なチェックではムダ計算が優れている。
トレーニングタイムの長さのペナルティは能力を損なう可能性があるが、推論タイムのアーリーエグジットにはシステムのオーバーヘッドが加わる。
このギャップを埋めるため、モデルに直接動的早期退避機能を内包する新しいポストトレーニングフレームワークであるStep-GRPOを提案する。
Step-GRPOは、言語マーカーを利用して最適化目標を生トークンから意味ステップにシフトする。
本稿では,グループレベルのベースラインに基づいて動的に冗長性をペナルティするStep-Aware Relative Rewardと相乗する,探索中の高信頼軌道を簡潔に表現するための動的トレンシ付きロールアウト機構を提案する。
様々なベンチマークで3つのモデルサイズにわたる大規模な実験は、Step-GRPOがより優れた精度と効率のトレードオフを達成することを示した。
Qwen3-8Bでは,従来の長値法で観測された精度劣化を回避しつつ,バニラモデルと比較してトークン消費量を32.0\%削減する。
関連論文リスト
- Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - Difficulty-Estimated Policy Optimization [38.86673795561421]
推論アライメントの効率性とロバスト性を最適化する新しいフレームワークであるDifficulty-Estimated Policy Optimization (DEPO)を提案する。
提案手法は,高性能推論モデルの学習における計算障壁を大幅に減らし,推論スケーリングのためのより持続可能な経路を提供する。
論文 参考訳(メタデータ) (2026-02-06T04:12:23Z) - POP: Prefill-Only Pruning for Efficient Large Model Inference [5.743318651374061]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は目覚ましい能力を示している。
既存の構造化プルーニング法はハードウェア効率が良いが、しばしばかなりの精度の劣化に悩まされる。
この失敗は、プリフィルとデコードステージの間の非対称的な役割を無視する、ステージに依存しないプルーニングアプローチに起因している、と我々は主張する。
論文 参考訳(メタデータ) (2026-02-03T09:22:26Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - Towards Flash Thinking via Decoupled Advantage Policy Optimization [11.025775055262569]
大規模共振モデル(LRM)は、教師付き微調整(SFT)と強化学習(RL)によって複雑な問題を解く際、顕著な性能を達成した。
既存のRLアルゴリズムは、過度に長い応答と過度な問題に悩まされ、推論遅延と計算消費が増大する。
本稿では,モデルに対する非効率推論を減らすために,新しいRLフレームワークDEPOを提案する。
論文 参考訳(メタデータ) (2025-10-17T07:19:20Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。