論文の概要: Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs?
- arxiv url: http://arxiv.org/abs/2506.17121v1
- Date: Fri, 20 Jun 2025 16:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.536892
- Title: Cache Me If You Can: How Many KVs Do You Need for Effective Long-Context LMs?
- Title(参考訳): キャッシュ 可能であれば、効果的に長いコンテキストのLMに何KVが必要なのか?
- Authors: Adithya Bhaskar, Alexander Wettig, Tianyu Gao, Yihe Dong, Danqi Chen,
- Abstract要約: 言語モデルは、書籍要約のようなタスクに対して、ますます長いコンテキストを扱う。
これによりキーバリュー(KV)キャッシュのメモリコストが増大する。
以前の多くの研究でKVをメモリから外す方法が提案されているが、そのアプローチは好ましい設定に適合している。
KVフットプリント*は、記憶中のKVエントリの量と寿命の両方を考慮し、統一された計量として提案する。
- 参考スコア(独自算出の注目度): 79.58770714228983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models handle increasingly long contexts for tasks such as book summarization, but this leads to growing memory costs for the key-value (KV) cache. Many prior works have proposed ways of discarding KVs from memory, but their approaches are tailored to favorable settings, obscuring caveats like high peak memory and performance degradation, and a fair comparison between methods is difficult. In this paper, we propose the *KV footprint* as a unified metric, which accounts for both the amount of KV entries stored and their lifespan in memory. We evaluate methods based on the smallest footprint they attain while preserving performance in both long-context understanding and generation, with context lengths of up to 128K tokens. This metric reveals the high peak memory of prior KV eviction methods. One class of methods -- *post-fill eviction* -- has a high footprint due to being incompatible with eviction during pre-filling. We adapt these methods to be able to evict KVs during pre-filling, achieving substantially lower KV footprints. We then turn to *recency eviction* methods, wherein we propose PruLong, an end-to-end optimization method for learning which attention heads need to retain the full KV cache and which do not. PruLong saves memory while preserving long-context performance, achieving 12% smaller KV footprint than prior methods while retaining performance in challenging recall tasks. Our paper clarifies the complex tangle of long-context inference methods and paves the way for future development to minimize the KV footprint.
- Abstract(参考訳): 言語モデルは、書籍要約のようなタスクの長いコンテキストを扱うようになるが、キーバリュー(KV)キャッシュのメモリコストが増大する。
多くの先行研究でKVをメモリから排除する方法が提案されているが、それらのアプローチは好ましい設定に適合し、ピークメモリや性能劣化などの注意事項を隠蔽し、メソッド間の公正な比較は困難である。
本稿では,記憶されているKVエントリの量とメモリ上の寿命の両方を考慮し,*KVフットプリントを統一計量として提案する。
コンテキスト長が最大128Kの長文理解と生成の両方のパフォーマンスを保ちながら,得られた最小フットプリントに基づいて評価を行う。
このメトリクスは、以前のKV消去法における高いピークメモリを明らかにする。
メソッドの1つのクラス、*post-fill eviction*は、プリフィル中にエビクションと互換性がないため、フットプリントが高い。
これらの手法は, プレフィル中にKVを除去し, KVフットプリントを著しく低めることができるように適応する。
PruLong(PruLong)は,注目ヘッドがKVキャッシュを完全に保持する必要があるか,そうでないかを学習するためのエンドツーエンド最適化手法である。
PruLongは、長いコンテキスト性能を維持しながらメモリを節約し、従来の方法よりも12%小さなKVフットプリントを実現し、挑戦的なリコールタスクのパフォーマンスを維持している。
本稿では,長文推論手法の複雑な絡み合いを明らかにするとともに,KVフットプリントを最小化するための今後の開発方法を明らかにする。
関連論文リスト
- LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文 参考訳(メタデータ) (2025-03-11T20:45:02Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。
LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文 参考訳(メタデータ) (2025-02-18T04:08:29Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。
このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。
ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。