論文の概要: SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2603.08000v1
- Date: Mon, 09 Mar 2026 06:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.595452
- Title: SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning
- Title(参考訳): SmartThinker: 効率的な大規模言語モデル推論のためのプログレッシブ・オブ・サート長校正
- Authors: Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen,
- Abstract要約: プログレッシブCoT長キャリブレーションを用いた新しい効率的な推論法であるSmartThinkerを提案する。
実験の結果、SmartThinkerは52.5%の平均長圧縮を実現し、精度が向上した。
- 参考スコア(独自算出の注目度): 34.14269693187003
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large reasoning models (LRMs) like OpenAI o1 and DeepSeek-R1 achieve high accuracy on complex tasks by adopting long chain-of-thought (CoT) reasoning paths. However, the inherent verbosity of these processes frequently results in redundancy and overthinking. To address this issue, existing works leverage Group Relative Policy Optimization (GRPO) to reduce LRM output length, but their static length reward design cannot dynamically adapt according to the relative problem difficulty and response length distribution, causing over-compression and compromised accuracy. Therefore, we propose SmartThinker, a novel GRPO-based efficient reasoning method with progressive CoT length calibration. SmartThinker makes a two-fold contribution: First, it dynamically estimates the optimal length with peak accuracy during training and guides overlong responses toward it to reduce response length while sustaining accuracy. Second, it dynamically modulates the length reward coefficient to avoid the unwarranted penalization of correct reasoning paths. Extensive experiment results show that SmartThinker achieves up to 52.5% average length compression with improved accuracy, and achieves up to 16.6% accuracy improvement on challenging benchmarks like AIME25. The source code can be found at https://github.com/SJTU-RTEAS/SmartThinker.
- Abstract(参考訳): OpenAI o1やDeepSeek-R1のような大きな推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論パスを採用することで複雑なタスクにおいて高い精度を達成する。
しかしながら、これらのプロセスの固有の冗長性は、しばしば冗長性と過度な考えをもたらす。
この問題に対処するため、既存の研究ではグループ相対政策最適化(GRPO)を用いてLRM出力長を削減しているが、それらの静的長の報酬設計は相対的な問題難易度や応答長の分布に応じて動的に適応できず、過剰圧縮や精度が損なわれている。
そこで我々は,進行CoT長キャリブレーションを用いた新しいGRPOに基づく効率的な推論法であるSmartThinkerを提案する。
SmartThinkerは2倍のコントリビューションを行います。 まず、トレーニング中に最適な長さをピーク精度で動的に推定し、過度の応答を誘導し、正確性を保ちながら応答長を削減します。
第二に、正しい推論経路の不正なペナル化を避けるために、長さ報酬係数を動的に変調する。
大規模な実験の結果、SmartThinkerは平均長圧縮を52.5%まで向上し、AIME25のような挑戦的なベンチマークで最大16.6%の精度向上を達成した。
ソースコードはhttps://github.com/SJTU-RTEAS/SmartThinkerにある。
関連論文リスト
- Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty [42.57318973226598]
ARLCPは推論効率と解の精度のバランスをとるために設計された強化学習フレームワークである。
我々は,DeepSeek-R1-Distill-Qwen-1.5BモデルとDeepSeek-R1-Distill-Qwen-7Bモデルを用いて,5つの数学的推論ベンチマークの評価を行った。
論文 参考訳(メタデータ) (2026-02-12T16:04:00Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。