Fugu-MT 論文翻訳(概要): SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control

論文の概要: SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control

arxiv url: http://arxiv.org/abs/2507.04348v1
Date: Sun, 06 Jul 2025 11:21:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.132214
Title: SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control
Title（参考訳）: SmartThinker: ステップレベル長制御による推論の圧縮と保存の学習
Authors: Xingyang He, Xiao Ling, Jie Liu,
Abstract要約: 大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。 We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
参考スコア（独自算出の注目度）: 5.224609066309358
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large reasoning models (LRMs) have exhibited remarkable reasoning capabilities through inference-time scaling, but this progress has also introduced considerable redundancy and inefficiency into their reasoning processes, resulting in substantial computational waste. Previous work has attempted to mitigate this issue by penalizing the overall length of generated samples during reinforcement learning (RL), with the goal of encouraging a more concise chains of thought. However, we observe that such global length penalty often lead to excessive compression of critical reasoning steps while preserving unnecessary details in simpler ones, yielding a suboptimal trade-off between accuracy and efficiency. To address this issue, we propose SmartThinker, a two-stage learnable framework designed to enable fine-grained control over the length of reasoning chains based on the importance of each individual step. In the first stage, SmartThinker adapts a reasoning model to a short-form reasoning mode through rejection sampling combined with supervised fine-tuning (SFT). In the second stage, SmartThinker applies Step-Level Length Control Policy Optimization (SCPO) to refine the model output distribution, which increases the proportion of length allocated to critical steps while reducing redundancy in less important ones. SCPO consists of four core components: an online importance estimator, a step-level length control reward function, a step-level generalized advantage estimation (S-GAE) and a difficulty-adaptive clipping strategy. Working in concert, these components enable SCPO to implement differentiated length control across reasoning steps. Empirical results across multiple reasoning benchmarks and various backbone models demonstrate that SmartThinker significantly reduces redundant reasoning while achieving comparable or even superior performance to existing methods.
Abstract（参考訳）: 大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示してきたが、この進歩は、その推論プロセスにかなりの冗長性と非効率性をもたらし、かなりの計算浪費をもたらす。従来の研究は、より簡潔な思考の連鎖を促進することを目的として、強化学習(RL)中に生成されたサンプル全体の長さをペナルティ化することで、この問題を緩和しようと試みてきた。しかし、このようなグローバルな長さのペナルティは、単純なものでは不要な詳細を保ちながら、批判的推論ステップの過剰な圧縮を招き、精度と効率の中間的なトレードオフをもたらすことが多い。この問題を解決するためにSmartThinkerを提案する。SmartThinkerは、各ステップの重要性に基づいて、推論チェーンの長さを細かく制御できるように設計された2段階の学習可能なフレームワークである。第一段階では、SmartThinkerはリジェクションサンプリングと教師付き微調整(SFT)を組み合わせることで、短い形式の推論モードに推論モデルを適用する。第二段階では、SmartThinkerはステップレベル長制御ポリシー最適化(SCPO)を適用して、モデルの出力分布を洗練させ、重要なステップに割り当てられる長さの割合を増大させ、重要でないステップの冗長性を減少させる。 SCPOは、オンライン重要度推定器、ステップレベル長制御報酬関数、ステップレベル一般化利得推定(S-GAE)、困難適応クリッピング戦略の4つのコアコンポーネントから構成される。これらのコンポーネントは協調して動作するため、SCPOは推論ステップ間で異なる長さ制御を実装することができる。複数の推論ベンチマークとさまざまなバックボーンモデルにまたがる実証的な結果は、SmartThinkerが冗長な推論を大幅に削減し、既存のメソッドと同等あるいはそれ以上のパフォーマンスを実現していることを示している。

関連論文リスト

Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文参考訳（メタデータ） (2025-08-05T11:48:18Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文参考訳（メタデータ） (2025-06-25T06:29:18Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。 DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-05-21T15:03:26Z)
Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Making Small Language Models Efficient Reasoners: Intervention, Supervision, Reinforcement [22.801244105119025]
精度と計算を効果的にトレードオフすることで、小型モデルによるトークン効率の推論を改善する新しいアルゴリズムを提案する。まず、SFT後のモデルが推論過程の最適停止点を決定するのに失敗し、冗長かつ反復的な出力が得られることを示す。 MATH500、AMC、AIME24、OlympiadBenchの4つの推論ベンチマークの実験は、TSがs1の予算強制アプローチと比較して非常に効果的であることを示した。
論文参考訳（メタデータ） (2025-05-12T18:04:39Z)
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。 LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文参考訳（メタデータ） (2025-05-08T01:40:40Z)
ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。 ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文参考訳（メタデータ） (2025-04-30T07:04:19Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。