論文の概要: Mitigating Overthinking through Reasoning Shaping
- arxiv url: http://arxiv.org/abs/2510.09535v1
- Date: Fri, 10 Oct 2025 16:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.400519
- Title: Mitigating Overthinking through Reasoning Shaping
- Title(参考訳): Reasoning Shapingによる再考
- Authors: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang,
- Abstract要約: Group Relative Segment Penalization (GRSP) は、推論を正規化するためのステップレベル手法である。
GRSPは精度を著しく損なうことなく優れたトークン効率を実現する。
- 参考スコア(独自算出の注目度): 39.521132754190155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier Reward (RLVR) have shown great power in problem solving, yet they often cause overthinking: excessive, meandering reasoning that inflates computational cost. Prior designs of penalization in RLVR manage to reduce token consumption while often harming model performance, which arises from the oversimplicity of token-level supervision. In this paper, we argue that the granularity of supervision plays a crucial role in balancing efficiency and accuracy, and propose Group Relative Segment Penalization (GRSP), a step-level method to regularize reasoning. Since preliminary analyses show that reasoning segments are strongly correlated with token consumption and model performance, we design a length-aware weighting mechanism across segment clusters. Extensive experiments demonstrate that GRSP achieves superior token efficiency without heavily compromising accuracy, especially the advantages with harder problems. Moreover, GRSP stabilizes RL training and scales effectively across model sizes.
- Abstract(参考訳): Reinforcement Learning from Verifier Reward (RLVR) によって強化された大きな推論モデル (LRM) は、問題解決において大きな力を示しているが、しばしば過度に、計算コストを膨らませる難解な推論を引き起こす。
RLVRにおけるペナル化の以前の設計は、トークンレベルの監督の過度さから生じるモデル性能を害しながら、トークンの消費を減少させる。
本稿では、効率と精度のバランスをとる上で、監督の粒度が重要な役割を果たすことを論じ、推論を規則化する段階的な方法であるグループ相対分節法(GRSP)を提案する。
予備分析の結果, 推理セグメントはトークン消費とモデル性能と強く相関していることが明らかとなったので, セグメントクラスタ間の長さ認識重み付け機構を設計する。
広範囲な実験により、GRSPは精度、特に難解な問題に対する利点を著しく損なうことなく優れたトークン効率を達成することが示された。
さらに、GRSPはRLトレーニングを安定化し、モデルサイズにわたって効果的にスケールする。
関連論文リスト
- Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。
長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。
我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文 参考訳(メタデータ) (2025-09-30T06:04:43Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。