論文の概要: Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction
- arxiv url: http://arxiv.org/abs/2509.10798v1
- Date: Sat, 13 Sep 2025 03:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.782102
- Title: Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction
- Title(参考訳): 審査員Q:KVキャッシュの最適情報保持のためのトレーニング可能なクエリ
- Authors: Yijun Liu, Yixuan Wang, Yuzhuang Xu, Shiyu Ji, Yang Xu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
- 参考スコア(独自算出の注目度): 53.83828564664595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) utilize key-value (KV) cache to store historical information during sequence processing. The size of KV cache grows linearly as the length of the sequence extends, which seriously affects memory usage and decoding efficiency. Current methods for KV cache eviction typically utilize the last window from the pre-filling phase as queries to compute the KV importance scores for eviction. Although this scheme is simple to implement, it tends to overly focus on local information, potentially leading to the neglect or omission of crucial global information. To mitigate this issue, we propose Judge Q, a novel training method which incorporates a soft token list. This method only tunes the model's embedding layer at a low training cost. By concatenating the soft token list at the end of the input sequence, we train these tokens' attention map to the original input sequence to align with that of the actual decoded tokens. In this way, the queries corresponding to the soft tokens can effectively capture global information and better evaluate the importance of the keys and values within the KV cache, thus maintaining decoding quality when KV cache is evicted. Under the same eviction budget, our method exhibits less performance degradation compared to existing eviction approaches. We validate our approach through experiments conducted on models such as Llama-3.1-8B-Instruct and Mistral-7B-Instruct-v0.3, using benchmarks including LongBench, RULER, and Needle-in-a-Haystack. Results indicate an improvement of approximately 1 point on the LongBench and over 3 points on RULER. This proposed methodology can be seamlessly integrated into existing open-source models with minimal training overhead, thereby enhancing performance in KV cache eviction scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュを使用して、シーケンス処理中に履歴情報を格納する。
KVキャッシュのサイズは、シーケンスの長さが長くなるにつれて線形に増加し、メモリ使用量や復号効率に深刻な影響を及ぼす。
KVキャッシュ消去の現在の方法は、通常、プレフィルフェーズからの最後のウィンドウをクエリとして利用し、消去のためのKV重要度スコアを計算する。
このスキームの実装は簡単だが、ローカル情報に過度に注目する傾向があるため、重要なグローバル情報の無視や排除につながる可能性がある。
この問題を軽減するために,ソフトトークンリストを組み込んだ新しいトレーニング手法であるジャッジQを提案する。
この方法は、低いトレーニングコストでモデルの埋め込み層をチューニングするだけである。
入力シーケンスの最後にソフトトークンリストを連結することにより、これらのトークンのアテンションマップを元の入力シーケンスにトレーニングし、実際のデコードされたトークンと整合させる。
これにより、ソフトトークンに対応するクエリは、グローバル情報を効果的にキャプチャし、KVキャッシュ内のキーと値の重要性をよりよく評価し、KVキャッシュが削除された場合の復号品質を維持することができる。
同じエビクション予算の下では,既存のエビクション手法に比べて性能劣化が小さい。
Llama-3.1-8B-InstructやMistral-7B-Instruct-v0.3といったモデルを用いて,LongBench,RULER,Needle-in-a-Haystackなどのベンチマークを用いて本手法の有効性を検証する。
その結果,LongBenchでは約1点,RULERでは3点以上の改善が見られた。
提案手法は,トレーニングオーバーヘッドを最小限に抑えた既存のオープンソースモデルにシームレスに統合することで,KVキャッシュ消去シナリオの性能を向上させることができる。
関連論文リスト
- CAOTE: KV Cache Selection for LLMs via Attention Output Error-Based Token Eviction [6.1346213444758355]
Token Evictionは、キャッシュからあまり重要でないトークンを排除してボトルネックを軽減するために設計された、広く採用されているポストトレーニング手法である。
本稿では,キャッシュされたトークンのアテンション出力への寄与に基づく簡単な消去基準を提案する。
本稿では,CAOTEと最先端の注目スコアベースの手法を組み合わせることで,下流タスクの精度が常に向上することを示す。
論文 参考訳(メタデータ) (2025-04-18T19:46:54Z) - LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference [16.83202690345235]
長文推論のための単純かつ効果的なKV消去キャッシュ手法であるSelf-Attention Guided Eviction(SAGE-KV)を提案する。
プリフィル後,KVキャッシュを圧縮するためにトークンとヘッドの両方で1回のトップk選択を行う。
SAGE-KV は静的 KV キャッシュ選択法 StreamLLM よりも精度が向上し,動的 KV キャッシュ選択法 Quest よりも精度が良く,メモリ効率が 4 倍向上する。
論文 参考訳(メタデータ) (2025-03-11T20:45:02Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれる軽量モジュールをモデルに注入することで,KVキャッシュの動的な消去ポリシーを実現する。
提案手法は複数のシナリオにまたがって実験的に評価され,冗長トークンの有効排除は効率を向上するだけでなく,性能も向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。