論文の概要: SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control
- arxiv url: http://arxiv.org/abs/2507.04348v1
- Date: Sun, 06 Jul 2025 11:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.132214
- Title: SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control
- Title(参考訳): SmartThinker: ステップレベル長制御による推論の圧縮と保存の学習
- Authors: Xingyang He, Xiao Ling, Jie Liu,
- Abstract要約: 大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
- 参考スコア(独自算出の注目度): 5.224609066309358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have exhibited remarkable reasoning capabilities through inference-time scaling, but this progress has also introduced considerable redundancy and inefficiency into their reasoning processes, resulting in substantial computational waste. Previous work has attempted to mitigate this issue by penalizing the overall length of generated samples during reinforcement learning (RL), with the goal of encouraging a more concise chains of thought. However, we observe that such global length penalty often lead to excessive compression of critical reasoning steps while preserving unnecessary details in simpler ones, yielding a suboptimal trade-off between accuracy and efficiency. To address this issue, we propose SmartThinker, a two-stage learnable framework designed to enable fine-grained control over the length of reasoning chains based on the importance of each individual step. In the first stage, SmartThinker adapts a reasoning model to a short-form reasoning mode through rejection sampling combined with supervised fine-tuning (SFT). In the second stage, SmartThinker applies Step-Level Length Control Policy Optimization (SCPO) to refine the model output distribution, which increases the proportion of length allocated to critical steps while reducing redundancy in less important ones. SCPO consists of four core components: an online importance estimator, a step-level length control reward function, a step-level generalized advantage estimation (S-GAE) and a difficulty-adaptive clipping strategy. Working in concert, these components enable SCPO to implement differentiated length control across reasoning steps. Empirical results across multiple reasoning benchmarks and various backbone models demonstrate that SmartThinker significantly reduces redundant reasoning while achieving comparable or even superior performance to existing methods.
- Abstract(参考訳): 大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示してきたが、この進歩は、その推論プロセスにかなりの冗長性と非効率性をもたらし、かなりの計算浪費をもたらす。
従来の研究は、より簡潔な思考の連鎖を促進することを目的として、強化学習(RL)中に生成されたサンプル全体の長さをペナルティ化することで、この問題を緩和しようと試みてきた。
しかし、このようなグローバルな長さのペナルティは、単純なものでは不要な詳細を保ちながら、批判的推論ステップの過剰な圧縮を招き、精度と効率の中間的なトレードオフをもたらすことが多い。
この問題を解決するためにSmartThinkerを提案する。SmartThinkerは、各ステップの重要性に基づいて、推論チェーンの長さを細かく制御できるように設計された2段階の学習可能なフレームワークである。
第一段階では、SmartThinkerはリジェクションサンプリングと教師付き微調整(SFT)を組み合わせることで、短い形式の推論モードに推論モデルを適用する。
第二段階では、SmartThinkerはステップレベル長制御ポリシー最適化(SCPO)を適用して、モデルの出力分布を洗練させ、重要なステップに割り当てられる長さの割合を増大させ、重要でないステップの冗長性を減少させる。
SCPOは、オンライン重要度推定器、ステップレベル長制御報酬関数、ステップレベル一般化利得推定(S-GAE)、困難適応クリッピング戦略の4つのコアコンポーネントから構成される。
これらのコンポーネントは協調して動作するため、SCPOは推論ステップ間で異なる長さ制御を実装することができる。
複数の推論ベンチマークとさまざまなバックボーンモデルにまたがる実証的な結果は、SmartThinkerが冗長な推論を大幅に削減し、既存のメソッドと同等あるいはそれ以上のパフォーマンスを実現していることを示している。
関連論文リスト
- AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。
まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。
MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文 参考訳(メタデータ) (2025-05-12T18:04:39Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。