論文の概要: LongFlow: Efficient KV Cache Compression for Reasoning M
- arxiv url: http://arxiv.org/abs/2603.11504v1
- Date: Thu, 12 Mar 2026 03:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.848791
- Title: LongFlow: Efficient KV Cache Compression for Reasoning M
- Title(参考訳): LongFlow: 推論Mのための効率的なKVキャッシュ圧縮
- Authors: Yi Su, Zhenxu Tian, Dan Qiao, Yuechi Zhou, Juntao Li, Min Zhang,
- Abstract要約: LongFlow は KV キャッシュ圧縮手法であり,効率の良い重要度推定法である。
LongFlowは最大11.8倍のスループット向上を実現し、80%のKVキャッシュ圧縮を実現している。
- 参考スコア(独自算出の注目度): 40.00703310813227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reasoning models such as OpenAI-o1 and DeepSeek-R1 have shown strong performance on complex tasks including mathematical reasoning and code generation. However, this performance gain comes with substantially longer output sequences, leading to significantly increased deployment costs. In particular, long outputs require large KV caches, resulting in high memory consumption and severe bandwidth pressure during attention computation. Most existing KV cache optimization methods are designed for long-input, short-output scenarios and are ineffective for the long-output setting of reasoning models. Moreover, importance estimation in prior work is computationally expensive and becomes prohibitive when continuous re-evaluation is required during long generation. To address these challenges, we propose LongFlow, a KV cache compression method with an efficient importance estimation metric derived from an intermediate result of attention computation using only the current query. This design introduces negligible computational overhead and requires no auxiliary storage. We further develop a custom kernel that fuses FlashAttention, importance estimation, and token eviction into a single optimized operator, improving system-level efficiency. Experiments show that LongFlow achieves up to an 11.8 times throughput improvement with 80% KV cache compression with minimal impact on model accuracy.
- Abstract(参考訳): OpenAI-o1やDeepSeek-R1といった最近の推論モデルは、数学的推論やコード生成など複雑なタスクにおいて強力なパフォーマンスを示している。
しかしながら、このパフォーマンス向上には、出力シーケンスが大幅に長くなり、デプロイメントコストが大幅に増加します。
特に、長い出力は大きなKVキャッシュを必要とするため、注意計算時に高いメモリ消費と厳しい帯域幅の圧力が発生する。
既存のKVキャッシュ最適化手法の多くは、長期出力、短期出力のシナリオのために設計されており、推論モデルの長期出力設定には有効ではない。
さらに, 連続的な再評価が必要な場合, 先行作業における重要度評価は計算コストが高く, 禁止となる。
これらの課題に対処するために,現在のクエリのみを用いた注意計算の中間結果から導出した,効率的な重要度推定値を持つKVキャッシュ圧縮手法であるLongFlowを提案する。
この設計は、無視可能な計算オーバーヘッドを導入し、補助記憶を必要としない。
我々はさらに、FlashAttention, importance estimation, and token evictionを単一の最適化演算子に融合させるカスタムカーネルを開発し、システムレベルの効率を向上する。
実験によると、LongFlowは最大11.8倍のスループット向上を実現し、80%のKVキャッシュ圧縮を実現し、モデルの精度に最小限の影響を及ぼしている。
関連論文リスト
- LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation [17.367289687206732]
LookaheadKVは、大規模言語モデルのための軽量な消去フレームワークである。
明確なドラフト生成を必要とせずに、将来の応答をサロゲートする強度を活用する。
放出コストを最大14.5倍に削減し、タイム・ツー・ファースト・トークンを著しく高速化する。
論文 参考訳(メタデータ) (2026-03-11T15:44:32Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - LouisKV: Efficient KV Cache Retrieval for Long Input-Output Sequences [12.093166735658626]
キーバリュー(KV)キャッシュは、自動回帰モデルにおける冗長な計算の削減に成功している。
メモリオーバーヘッドが大幅に増加し、長時間のシナリオでの実際のデプロイメントが制限される。
既存のKV検索手法は,ページ単位の検索やページ単位の粗いKV管理によって,顕著な効率性と精度のボトルネックに悩まされている。
論文 参考訳(メタデータ) (2025-10-13T11:28:30Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。