論文の概要: KV Cache Offloading for Context-Intensive Tasks
- arxiv url: http://arxiv.org/abs/2604.08426v1
- Date: Thu, 09 Apr 2026 16:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.024
- Title: KV Cache Offloading for Context-Intensive Tasks
- Title(参考訳): コンテキスト集約タスクのためのKVキャッシュのオフロード
- Authors: Andrey Bocharnikov, Ivan Ermakov, Denis Kuznedelev, Vyacheslav Zhdanovskiy, Yegor Yershov,
- Abstract要約: KV-cacheオフロードは、正確性を保ちながらメモリフットプリントと推論レイテンシを低減するための有望なアプローチである。
テキストから構造化知識を抽出する必要があるコンテキスト集約的なタスクであるText2JSONベンチマークをリリースする。
我々の分析では、キーの低ランク射影と信頼性の低いランドマークの2つの重要な原因を特定した。
- 参考スコア(独自算出の注目度): 6.602317334135289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing demand for long-context LLMs across a wide range of applications, the key-value (KV) cache has become a critical bottleneck for both latency and memory usage. Recently, KV-cache offloading has emerged as a promising approach to reduce memory footprint and inference latency while preserving accuracy. Prior evaluations have largely focused on tasks that do not require extracting large amounts of information from the context. In this work, we study KV-cache offloading on context-intensive tasks: problems where the solution requires looking up a lot of information from the input prompt. We create and release the Text2JSON benchmark, a highly context-intensive task that requires extracting structured knowledge from raw text. We evaluate modern KV offloading on Text2JSON and other context-intensive tasks and find significant performance degradation on both Llama 3 and Qwen 3 models. Our analysis identifies two key reasons for poor accuracy: low-rank projection of keys and unreliable landmarks, and proposes a simpler alternative strategy that significantly improves accuracy across multiple LLM families and benchmarks. These findings highlight the need for a comprehensive and rigorous evaluation of long-context compression techniques.
- Abstract(参考訳): 幅広いアプリケーションにわたる長期LLMの需要が高まり、キーバリュー(KV)キャッシュは、レイテンシとメモリ使用の両方において重要なボトルネックとなっている。
近年、KV-cacheオフロードはメモリフットプリントと推論レイテンシを削減し、精度を保ちつつ、有望なアプローチとして現れている。
これまでの評価では、コンテキストから大量の情報を抽出する必要のないタスクに主に焦点が当てられていた。
本研究では,KV-cacheオフロードをコンテキスト集約的なタスク(入力プロンプトから大量の情報を探す必要がある問題)に対して検討する。
テキストから構造化知識を抽出する必要がある,コンテキスト集約的なタスクであるText2JSONベンチマークを作成し,リリースする。
テキスト2JSONや他のコンテキスト集約タスクにおけるKVオフロードを評価し,Llama 3モデルとQwen 3モデルの両方で大幅な性能劣化が見られた。
我々の分析では、キーの低ランク投影と信頼性の低いランドマークの2つの原因を特定し、複数のLLMファミリーやベンチマークにおいて精度を大幅に向上させる、より単純な代替戦略を提案する。
これらの結果は,長文圧縮技術の包括的かつ厳密な評価の必要性を浮き彫りにした。
関連論文リスト
- Where Matters More Than What: Decoding-aligned KV Cache Compression via Position-aware Pseudo Queries [39.38028687042293]
キーバリュー(KV)キャッシュは、効率的なLarge Language Models(LLM)推論に不可欠である。
既存のKVキャッシュ圧縮手法は、プリフィル段階でトークンの重要性を推定するために入力側注意パターンに依存している。
位置認識型擬似クエリ(DapQ)を提案し,位置認識型擬似クエリによるKVキャッシュ圧縮を近似する。
論文 参考訳(メタデータ) (2026-03-12T05:36:32Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。