論文の概要: Hold Onto That Thought: Assessing KV Cache Compression On Reasoning
- arxiv url: http://arxiv.org/abs/2512.12008v1
- Date: Fri, 12 Dec 2025 19:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.071082
- Title: Hold Onto That Thought: Assessing KV Cache Compression On Reasoning
- Title(参考訳): KVキャッシュ圧縮を推論して考える
- Authors: Minghui Liu, Aadi Palnitkar, Tahseen Rabbani, Hyunwoo Jae, Kyle Rui Sang, Dixi Yao, Shayan Shabihi, Fuheng Zhao, Tian Li, Ce Zhang, Furong Huang, Kunpeng Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、長いコンテキストタスクにおいて顕著なパフォーマンスを示すが、しばしばメモリ制約によってボトルネックとなる。
重要でないトークンを排除してキャッシュの増大を軽減するために圧縮アルゴリズムが導入された。
提案手法は, 長期化タスクにおいて, 一般的な圧縮戦略の性能をベンチマークするものである。
- 参考スコア(独自算出の注目度): 47.20244197641592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance on long-context tasks, but are often bottlenecked by memory constraints. Namely, the KV cache, which is used to significantly speed up attention computations, grows linearly with context length. A suite of compression algorithms has been introduced to alleviate cache growth by evicting unimportant tokens. However, several popular strategies are targeted towards the prefill phase, i.e., processing long prompt context, and their performance is rarely assessed on reasoning tasks requiring long decoding. In particular, short but complex prompts, such as those in benchmarks like GSM8K and MATH500, often benefit from multi-step reasoning and self-reflection, resulting in thinking sequences thousands of tokens long. In this work, we benchmark the performance of several popular compression strategies on long-reasoning tasks. For the non-reasoning Llama-3.1-8B-Instruct, we determine that no singular strategy fits all, and that performance is heavily influenced by dataset type. However, we discover that H2O and our decoding-enabled variant of SnapKV are dominant strategies for reasoning models, indicating the utility of heavy-hitter tracking for reasoning traces. We also find that eviction strategies at low budgets can produce longer reasoning traces, revealing a tradeoff between cache size and inference costs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長いコンテキストタスクにおいて顕著なパフォーマンスを示すが、しばしばメモリ制約によってボトルネックとなる。
すなわち、注意計算を著しく高速化するために使用されるKVキャッシュは、コンテキスト長とともに線形に成長する。
重要でないトークンを排除してキャッシュの増大を軽減するために圧縮アルゴリズムが導入された。
しかしながら、いくつかの一般的な戦略はプリフィルフェーズ、すなわち長いプロンプトコンテキストを処理することを目的としており、それらの性能は長い復号を必要とする推論タスクで評価されることは滅多にない。
特に、GSM8KやMATH500のような短いが複雑なプロンプトは、多段階の推論と自己回帰の恩恵を受け、結果として数千のトークン列が長い。
本研究は,長期化タスクにおける圧縮戦略の性能をベンチマークする。
非推論的なLlama-3.1-8B-インストラクタでは、特異な戦略がすべてに適合せず、パフォーマンスはデータセットタイプに大きく影響していると判断する。
しかし,H2OとSnapKVの復号化が推論モデルの主要な戦略であることは明らかであり,重ヒッタ追跡による推論トレースの有用性が示唆された。
また、低予算での排除戦略は、キャッシュサイズと推論コストのトレードオフを露呈し、より長い推論トレースを生み出す可能性があることもわかりました。
関連論文リスト
- Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文 参考訳(メタデータ) (2025-12-03T00:20:35Z) - UniGist: Towards General and Hardware-aligned Sequence-level Long Context Compression [86.33995240043936]
UniGistは、大規模言語モデルのためのシーケンスレベルのロングコンテキスト圧縮フレームワークである。
生のトークンを特別な圧縮トークン(gist)に微粒な方法で置き換えることで、コンテキスト情報を効率的に保存する。
提案手法は,圧縮トークンの実際の除去を可能にすることで,フレキシブルな推論もサポートしている。
論文 参考訳(メタデータ) (2025-09-19T08:47:37Z) - CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation [7.119276797399788]
キー値(KV)キャッシュサイズの増加は、メモリと実行効率に重大な課題をもたらす。
ほとんどのKVキャッシュ圧縮手法は、GQA (Grouped Query Attention) ベースの LLM において、すべてのアテンションヘッドを用いたトークンの排除に依存している。
我々は階層適応型KVキャッシュ割り当て戦略を導入し、様々なメモリ予算下での最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-04T13:26:16Z) - LazyEviction: Lagged KV Eviction with Attention Pattern Observation for Efficient Long Reasoning [21.761205124793175]
拡張推論シーケンスでは、キー値(KV)キャッシュの増加によるGPUメモリオーバーヘッドが大幅に増加する。
既存のKVキャッシュ圧縮手法は、メモリボトルネックを軽減するが、長い推論タスクに苦労する。
トークンの繰り返しパターンに基づいた優先順位付けによる遅延繰り返しトークンを保持する観測窓ベースのラッチ消去フレームワークであるLazyEvictionを提案する。
論文 参考訳(メタデータ) (2025-06-19T02:25:04Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。