論文の概要: PACE: Prefix-Protected and Difficulty-Aware Compression for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2602.11639v1
- Date: Thu, 12 Feb 2026 06:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.68244
- Title: PACE: Prefix-Protected and Difficulty-Aware Compression for Efficient Reasoning
- Title(参考訳): PACE: 効率的な推論のためのプレフィックス・プロテクションと難解な圧縮
- Authors: Ruixiang Feng, Yuntao Wen, Silin Zhou, Ke Shi, Yifan Wang, Ran Le, Zhenwei An, Zongchao Chen, Chen Yang, Guangyue Peng, Yiming Jia, Dongsheng Wang, Tao Zhang, Lisi Chen, Yang Song, Shen Gao, Shuo Shang,
- Abstract要約: 言語推論モデル(LRM)は、テスト時の計算をスケールすることで高いパフォーマンスを達成するが、しばしば過度に考えることに悩まされる」。
階層的管理下でのプレフィックス保護と難易度を考慮した圧縮のための2レベルフレームワークである textbfmodel を提案する。
- 参考スコア(独自算出の注目度): 37.125266434955584
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language Reasoning Models (LRMs) achieve strong performance by scaling test-time computation but often suffer from ``overthinking'', producing excessively long reasoning traces that increase latency and memory usage. Existing LRMs typically enforce conciseness with uniform length penalties, which over-compress crucial early deduction steps at the sequence level and indiscriminately penalize all queries at the group level. To solve these limitations, we propose \textbf{\model}, a dual-level framework for prefix-protected and difficulty-aware compression under hierarchical supervision. At the sequence level, prefix-protected optimization employs decaying mixed rollouts to maintain valid reasoning paths while promoting conciseness. At the group level, difficulty-aware penalty dynamically scales length constraints based on query complexity, maintaining exploration for harder questions while curbing redundancy on easier ones. Extensive experiments on DeepSeek-R1-Distill-Qwen (1.5B/7B) demonstrate that \model achieves a substantial reduction in token usage (up to \textbf{55.7\%}) while simultaneously improving accuracy (up to \textbf{4.1\%}) on math benchmarks, with generalization ability to code, science, and general domains.
- Abstract(参考訳): 言語推論モデル(LRM)は、テスト時の計算をスケールすることで高いパフォーマンスを達成するが、しばしば 'overthinking'' に苦しむ。
既存のLEMは、通常、一様長さのペナルティで簡潔さを強制し、配列レベルで重要な早期推論ステップを過度に圧縮し、グループレベルで全てのクエリを無差別にペナルティ化する。
これらの制約を解決するために, 階層的監視の下でプレフィックス保護された, 難易度の高い圧縮のための二重レベルフレームワークである \textbf{\model} を提案する。
シーケンスレベルでは、プレフィックス保護最適化は、簡潔性を促進しながら有効な推論パスを維持するために、崩壊した混合ロールアウトを用いる。
グループレベルでは、困難に気付くペナルティは、クエリの複雑さに基づいて、動的に長さの制約をスケールし、より簡単なものに対する冗長性を抑えながら、難しい質問を探索する。
DeepSeek-R1-Distill-Qwen (1.5B/7B) の広範な実験により、 \model はトークンの使用量( \textbf{55.7\%} まで)を大幅に削減し、同時に数学ベンチマークの精度( \textbf{4.1\%} まで)を向上し、コード、科学、一般ドメインの一般化能力を持つことを示した。
関連論文リスト
- Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization [68.89915707647138]
大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、印象的な能力を示した。
textbfCoSMo(textbfSplit-textbfMerge textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2026-02-03T05:54:28Z) - TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs [57.217593337454026]
TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
論文 参考訳(メタデータ) (2025-11-17T10:38:56Z) - Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models [26.88030285500965]
大きな推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、しばしば過剰な冗長性に悩まされる。
コンパクトな推論ステップを好んで, LRM をより効率的に推論するための RL フレームワークである textbfStep Pruner (SP) を導入する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
論文 参考訳(メタデータ) (2025-10-04T13:24:26Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy [8.962703809086628]
ThinkLessは推論効率のよいフレームワークで、推論生成を早期に終了し、モデルを変更することなく出力品質を維持する。
我々はThinkLessが完全長のChain-of-Thought(CoT)デコードに匹敵する精度を実現し,デコード時間とメモリ消費を大幅に削減することを示した。
論文 参考訳(メタデータ) (2025-05-21T15:58:16Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。