論文の概要: Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03805v1
- Date: Sat, 04 Oct 2025 13:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.26237
- Title: Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models
- Title(参考訳): トークン長を超えて:大規模言語モデルにおける効率的かつ正確な推論のためのステッププルーナ
- Authors: Canhui Wu, Qiong Cao, Chang Li, Zhenfang Wang, Chao Xue, Yuwei Fan, Wei Xi, Xiaodong He,
- Abstract要約: 大きな推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、しばしば過剰な冗長性に悩まされる。
コンパクトな推論ステップを好んで, LRM をより効率的に推論するための RL フレームワークである textbfStep Pruner (SP) を導入する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
- 参考スコア(独自算出の注目度): 26.88030285500965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) demonstrate strong performance on complex tasks but often suffer from excessive verbosity, known as "overthinking." Existing solutions via reinforcement learning (RL) typically penalize generated tokens to promote conciseness. However, these methods encounter two challenges: responses with fewer tokens do not always correspond to fewer reasoning steps, and models may develop hacking behavior in later stages of training by discarding reasoning steps to minimize token usage. In this work, we introduce \textbf{Step Pruner (SP)}, an RL framework that steers LRMs toward more efficient reasoning by favoring compact reasoning steps. Our step-aware reward function prioritizes correctness while imposing penalties for redundant steps, and withholds rewards for incorrect responses to prevent the reinforcement of erroneous reasoning. Moreover, we propose a dynamic stopping mechanism: when the length of any output step exceeds the upper limit, we halt updates to prevent hacking behavior caused by merging steps. Extensive experiments across four reasoning benchmarks demonstrate that SP achieves state-of-the-art accuracy while significantly reducing response length. For instance, on AIME24, SP reduces token usage by \textbf{69.7\%}.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクに対して強いパフォーマンスを示すが、しばしば過剰な冗長性("overthinking")に悩まされる。
既存のソリューションである強化学習(RL)は、簡潔性を促進するために生成されたトークンをペナライズする。
しかし、これらの手法は2つの課題に遭遇する: トークンが少ない応答は、必ずしも推論ステップの少なさに対応しておらず、モデルはトークンの使用を最小限に抑えるために推論ステップを捨てることで、トレーニングの後半段階でハッキング動作を発達させる可能性がある。
本稿では, LRM をより効率的な推論へ向け, コンパクトな推論ステップを優先することで, より効率的な推論を行う RL フレームワークである \textbf{Step Pruner (SP)} を紹介する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
さらに,任意の出力ステップの長さが上限を超えると,ステップのマージによるハッキング動作を防止するために更新を停止する動的停止機構を提案する。
4つの推論ベンチマークによる大規模な実験により、SPは応答長を著しく減少させながら最先端の精度を達成することが示された。
例えば AIME24 では、SP は \textbf{69.7\%} でトークンの使用を減らす。
関連論文リスト
- Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。