論文の概要: ThinKV: Thought-Adaptive KV Cache Compression for Efficient Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.01290v1
- Date: Wed, 01 Oct 2025 04:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.794131
- Title: ThinKV: Thought-Adaptive KV Cache Compression for Efficient Reasoning Models
- Title(参考訳): ThinKV:効率的な推論モデルのための思考適応型KVキャッシュ圧縮
- Authors: Akshat Ramachandran, Marina Neseem, Charbel Sakr, Rangharajan Venkatesan, Brucek Khailany, Tushar Krishna,
- Abstract要約: ThinKVは思考適応型KVキャッシュ圧縮フレームワークである。
これはハイブリッド量子化消去戦略を適用し、思考重要度によるトークンの精度を割り当てる。
DeepSeek-R1-Distill、GPT-OSS、NVIDIA AceReasonの実験では、ThinKVは元のKVキャッシュの5%未満の精度でほぼロスレスな精度を実現している。
- 参考スコア(独自算出の注目度): 13.284627477293322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The long-output context generation of large reasoning models enables extended chain of thought (CoT) but also drives rapid growth of the key-value (KV) cache, quickly overwhelming GPU memory. To address this challenge, we propose ThinKV, a thought-adaptive KV cache compression framework. ThinKV is based on the observation that attention sparsity reveals distinct thought types with varying importance within the CoT. It applies a hybrid quantization-eviction strategy, assigning token precision by thought importance and progressively evicting tokens from less critical thoughts as reasoning trajectories evolve. Furthermore, to implement ThinKV, we design a kernel that extends PagedAttention to enable efficient reuse of evicted tokens' memory slots, eliminating compaction overheads. Extensive experiments on DeepSeek-R1-Distill, GPT-OSS, and NVIDIA AceReason across mathematics and coding benchmarks show that ThinKV achieves near-lossless accuracy with less than 5% of the original KV cache, while improving performance with up to 5.8x higher inference throughput over state-of-the-art baselines.
- Abstract(参考訳): 大きな推論モデルの長期出力コンテキスト生成により、思考チェーン(CoT)が拡張されるだけでなく、キー値(KV)キャッシュの急速な成長、GPUメモリの高速化も実現している。
そこで本研究では,思考適応型KVキャッシュ圧縮フレームワークであるThinKVを提案する。
ThinKVは、注意空間がCoT内で異なる重要性を持つ異なる思考タイプを明らかにするという観察に基づいている。
これはハイブリッド量子化消去戦略を適用し、思考の重要さによってトークンの精度を割り当て、推論軌道が進化するにつれて、あまり批判的でない思考からトークンを徐々に排除する。
さらに、ThinKVを実装するために、PagedAttentionを拡張したカーネルを設計し、トークンのメモリスロットの効率的な再利用を可能にし、圧縮オーバーヘッドをなくす。
DeepSeek-R1-Distill、GPT-OSS、NVIDIA AceReasonの数学およびコーディングベンチマークにおける大規模な実験は、ThinKVが元のKVキャッシュの5%未満でほぼ無作為な精度を達成し、最先端のベースラインよりも最大5.8倍高い推論スループットでパフォーマンスを改善していることを示している。
関連論文リスト
- KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。
しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。
我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:57:51Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。