論文の概要: Mitigating Overthinking through Reasoning Shaping
- arxiv url: http://arxiv.org/abs/2510.09535v1
- Date: Fri, 10 Oct 2025 16:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.400519
- Title: Mitigating Overthinking through Reasoning Shaping
- Title(参考訳): Reasoning Shapingによる再考
- Authors: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang,
- Abstract要約: Group Relative Segment Penalization (GRSP) は、推論を正規化するためのステップレベル手法である。
GRSPは精度を著しく損なうことなく優れたトークン効率を実現する。
- 参考スコア(独自算出の注目度): 39.521132754190155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier Reward (RLVR) have shown great power in problem solving, yet they often cause overthinking: excessive, meandering reasoning that inflates computational cost. Prior designs of penalization in RLVR manage to reduce token consumption while often harming model performance, which arises from the oversimplicity of token-level supervision. In this paper, we argue that the granularity of supervision plays a crucial role in balancing efficiency and accuracy, and propose Group Relative Segment Penalization (GRSP), a step-level method to regularize reasoning. Since preliminary analyses show that reasoning segments are strongly correlated with token consumption and model performance, we design a length-aware weighting mechanism across segment clusters. Extensive experiments demonstrate that GRSP achieves superior token efficiency without heavily compromising accuracy, especially the advantages with harder problems. Moreover, GRSP stabilizes RL training and scales effectively across model sizes.
- Abstract(参考訳): Reinforcement Learning from Verifier Reward (RLVR) によって強化された大きな推論モデル (LRM) は、問題解決において大きな力を示しているが、しばしば過度に、計算コストを膨らませる難解な推論を引き起こす。
RLVRにおけるペナル化の以前の設計は、トークンレベルの監督の過度さから生じるモデル性能を害しながら、トークンの消費を減少させる。
本稿では、効率と精度のバランスをとる上で、監督の粒度が重要な役割を果たすことを論じ、推論を規則化する段階的な方法であるグループ相対分節法(GRSP)を提案する。
予備分析の結果, 推理セグメントはトークン消費とモデル性能と強く相関していることが明らかとなったので, セグメントクラスタ間の長さ認識重み付け機構を設計する。
広範囲な実験により、GRSPは精度、特に難解な問題に対する利点を著しく損なうことなく優れたトークン効率を達成することが示された。
さらに、GRSPはRLトレーニングを安定化し、モデルサイズにわたって効果的にスケールする。
関連論文リスト
- ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning [31.958298572740848]
本稿では,低オーバーヘッドプロセス管理RLフレームワークであるATTNPOを提案する。
まず、冗長な注意を抑えながら、自然に重要なステップに焦点をあてる、特別な注意のヘッドのセットを特定します。
次に、2つのサブストラテジーを用いて、冗長なステップを回避し、重要なステップに対する罰則を減らし、精度を保ちながら過度な思考を緩和する。
論文 参考訳(メタデータ) (2026-02-10T16:40:22Z) - Does Your Reasoning Model Implicitly Know When to Stop Thinking? [45.954548163594204]
LRMは思考を止めるための適切な時間を暗黙的に知っているが、この能力は現在のサンプリングパラダイムによって隠蔽されている。
そこで我々は,この効率的な推論可能性を解き放つ新しいサンプリングパラダイムであるSAGEを紹介した。
論文 参考訳(メタデータ) (2026-02-09T07:38:22Z) - Self-Compression of Chain-of-Thought via Multi-Agent Reinforcement Learning [34.10133693878611]
本稿では,冗長なチャンクを選択的にペナルティ化するマルチエージェントRLフレームワークを提案する。
MARL(SCMA)による自己圧縮(Self-Compression)は,2つの特殊エージェントによる冗長検出と評価をインスタンス化する。
モデルスケールでの実証的な評価により、SCMAは応答長を11.1%から39.0%削減し、精度は4.33%から10.02%向上した。
論文 参考訳(メタデータ) (2026-01-29T16:13:10Z) - Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning [49.22815446849924]
大規模言語モデル(LLM)は多段階推論を必要とする問題に悩まされることが多い。
小規模なオープンソースモデルでは、正しいソリューションがほとんどサンプリングされない場合には、RLVR(Reinforcement Learning with Verifiable Rewards)が失敗する。
問題解決を論理的「行動」の系列を生成するものとして再構成するフレームワークとして, SRL(Supervised Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-10-29T22:05:08Z) - Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。
長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。
我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文 参考訳(メタデータ) (2025-09-30T06:04:43Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Concise Reasoning via Reinforcement Learning [13.657506042120167]
我々は強化学習(RL)の中核的原則を再考する。
簡潔さと正確さの自然な相関関係を明らかにする。
RLトレーニングの二次段階の導入は、非常に小さな問題セットを用いて、思考の連鎖を著しく減少させることが示される。
論文 参考訳(メタデータ) (2025-04-07T15:35:54Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。