論文の概要: TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2511.13223v1
- Date: Mon, 17 Nov 2025 10:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.13156
- Title: TokenSqueeze: Performance-Preserving Compression for Reasoning LLMs
- Title(参考訳): TokenSqueeze: Reasoning LLMのパフォーマンス保存圧縮
- Authors: Yuxiang Zhang, Zhengxu Yu, Weihang Pan, Zhongming Jin, Qiang Fu, Deng Cai, Binbin Lin, Jieping Ye,
- Abstract要約: TokenSqueezeは、パフォーマンスを保ち、自己生成データにのみ依存しながら推論パスを凝縮する新しいLong2Shortメソッドである。
TokenSqueeze は MATH500 ベンチマークの精度を維持しながらトークンの使用量を削減できることを示す。
- 参考スコア(独自算出の注目度): 57.217593337454026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging reasoning LLMs such as OpenAI-o1 and DeepSeek-R1 have achieved strong performance on complex reasoning tasks by generating long chain-of-thought (CoT) traces. However, these long CoTs result in increased token usage, leading to higher inference latency and memory consumption. As a result, balancing accuracy and reasoning efficiency has become essential for deploying reasoning LLMs in practical applications. Existing long-to-short (Long2Short) methods aim to reduce inference length but often sacrifice accuracy, revealing a need for an approach that maintains performance while lowering token costs. To address this efficiency-accuracy tradeoff, we propose TokenSqueeze, a novel Long2Short method that condenses reasoning paths while preserving performance and relying exclusively on self-generated data. First, to prevent performance degradation caused by excessive compression of reasoning depth, we propose to select self-generated samples whose reasoning depth is adaptively matched to the complexity of the problem. To further optimize the linguistic expression without altering the underlying reasoning paths, we introduce a distribution-aligned linguistic refinement method that enhances the clarity and conciseness of the reasoning path while preserving its logical integrity. Comprehensive experimental results demonstrate the effectiveness of TokenSqueeze in reducing token usage while maintaining accuracy. Notably, DeepSeek-R1-Distill-Qwen-7B fine-tuned using our proposed method achieved a 50\% average token reduction while preserving accuracy on the MATH500 benchmark. TokenSqueeze exclusively utilizes the model's self-generated data, enabling efficient and high-fidelity reasoning without relying on manually curated short-answer datasets across diverse applications. Our code is available at https://github.com/zhangyx1122/TokenSqueeze.
- Abstract(参考訳): OpenAI-o1やDeepSeek-R1といった新しい推論LLMは、長いチェーン・オブ・シークレット(CoT)トレースを生成することで、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
しかし、これらの長いCoTはトークンの使用量が増加し、推論遅延とメモリ消費が増加する。
その結果,LLMを実用化するためには,精度と推論効率のバランスが不可欠になっている。
既存のLong2Short(long-to-short)メソッドは、推論長を減らすことを目的としているが、しばしば精度を犠牲にして、トークンコストを下げながらパフォーマンスを維持するアプローチの必要性を明らかにしている。
この効率性と精度のトレードオフに対処するために,自己生成データにのみ依存しながら,推論経路を凝縮する新しいLong2Short法であるTokenSqueezeを提案する。
まず, 推理深さの過度な圧縮による性能劣化を防止するために, 推理深さが複雑度と適応的に一致した自己生成サンプルを選択することを提案する。
基礎となる推論経路を変更することなく言語表現をさらに最適化するために、論理的整合性を維持しつつ、推論経路の明瞭さと簡潔さを高める分布整合型言語洗練法を導入する。
TokenSqueezeのトークン使用率の低減と精度の維持に関する総合的な実験結果が得られた。
特に,提案手法を用いて微調整したDeepSeek-R1-Distill-Qwen-7Bでは,MATH500ベンチマークの精度を保ちながら平均トークン減少率が50%に達した。
TokenSqueezeは、モデルが生成したデータのみを利用して、さまざまなアプリケーションにまたがって手動でキュレートされたショートアンサーデータセットに頼ることなく、効率的で高忠実な推論を可能にする。
私たちのコードはhttps://github.com/zhangyx1122/TokenSqueeze.comから入手可能です。
関連論文リスト
- Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework [10.148124073650349]
Chain-of-Thought(CoT)推論はLarge Language Models(LLMs)を強化する
より長いアウトプットは、レイテンシ、メモリ使用量、KV-cache要求を増加させる。
精度を保ちながらCOTを圧縮する適応型フレームワークSEER(Self-Enhancing Efficient Reasoning)を提案する。
論文 参考訳(メタデータ) (2025-09-17T15:33:44Z) - Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal [13.035073453917088]
大規模推論モデル(LRM)は、Chain-of-Thought(CoT)の長さをスケールアップすることによって、コード推論において顕著な能力を示した。
我々は,CoT圧縮のための新しい粗大なフレームワークであるASAP(Anchor-guided, Surprisal-based Pruning)を提案する。
ASAPは、トレーニングと推論コストを大幅に削減しつつ、複数のコード生成ベンチマークで最先端の精度を実現している。
論文 参考訳(メタデータ) (2025-08-08T03:46:21Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning [14.020244011380063]
SpecReasonは、LEM推論を加速するシステムである。
最終回答の正確性を維持する上で、思考トークンのセマンティックな柔軟性を利用する。
バニラLEM推論よりも1.4-3.0times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-04-10T16:05:19Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。