論文の概要: WindowQuant: Mixed-Precision KV Cache Quantization based on Window-Level Similarity for VLMs Inference Optimization
- arxiv url: http://arxiv.org/abs/2605.02262v1
- Date: Mon, 04 May 2026 06:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.159591
- Title: WindowQuant: Mixed-Precision KV Cache Quantization based on Window-Level Similarity for VLMs Inference Optimization
- Title(参考訳): WindowQuant: VLM推論最適化のためのウィンドウレベル類似性に基づく混合精度KVキャッシュ量子化
- Authors: Wei Tao, Xiaoyang Qu, Peiqiang Wang, Guokuan Li, Jiguang Wan, Kai Lu, Jianzong Wang,
- Abstract要約: 既存の手法では、ビデオ言語モデル(VLM)におけるキー値(KV)キャッシュに対する混合精度量子化が提案されている。
本稿では,KVキャッシュの最適化にウィンドウ適応型混合精度量子化を用いるWindowQuantという新しい手法を提案する。
WindowQuantは、さまざまなデータセット上で最先端のVLMモデルとKVキャッシュ量子化手法より優れている。
- 参考スコア(独自算出の注目度): 50.768455096160984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video language models (VLMs) have been applied in various fields. However, the visual token sequence of the VLM is too long, which may cause intolerant inference latency and GPU memory usage. Existing methods propose mixed-precision quantization to the key-value (KV) cache in VLMs based on token granularity, which is time-consuming in the search process and hardware inefficient during computation. This paper introduces a novel approach called WindowQuant, which employs window-adaptive mixed-precision quantization to optimize the KV cache. WindowQuant consists of two modules: window-level quantization search and window-level KV cache computation. Window-level quantization search quickly determines the optimal bit-width configuration of the KV cache windows based on the similarity scores between the corresponding visual token windows and the text prompt, maintaining the model accuracy. Furthermore, window-level KV cache computation reorders the KV cache windows before quantization, avoiding the hardware inefficiency caused by mixed-precision quantization in inference computation. Extensive experiments demonstrate that WindowQuant outperforms state-of-the-art VLM models and KV cache quantization methods on various datasets.
- Abstract(参考訳): 近年,ビデオ言語モデル (VLM) が様々な分野に適用されている。
しかしながら、VLMの視覚トークンシーケンスは長すぎるため、耐え難い推論遅延とGPUメモリの使用が生じる可能性がある。
既存の手法では、トークンの粒度に基づくVLMのキー値(KV)キャッシュに対する混合精度量子化が提案されている。
本稿では,KVキャッシュの最適化にウィンドウ適応型混合精度量子化を用いるWindowQuantという新しい手法を提案する。
WindowQuantは、ウィンドウレベルの量子化検索とウィンドウレベルのKVキャッシュ計算の2つのモジュールで構成されている。
ウィンドウレベルの量子化探索は、対応する視覚トークンウィンドウとテキストプロンプトとの類似点に基づいて、KVキャッシュウィンドウの最適ビット幅構成を迅速に決定し、モデルの精度を維持する。
さらに、ウィンドウレベルのKVキャッシュ計算は、量子化の前にKVキャッシュウィンドウを再順序付けし、推論計算における混合精度量子化によるハードウェア不効率を回避する。
大規模な実験により、WindowQuantは様々なデータセット上で最先端のVLMモデルやKVキャッシュ量子化手法より優れていることが示された。
関連論文リスト
- Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference [24.184349246524587]
CocktailはKVキャッシュを最適化するためにチャンク適応型混合精度量子化を採用している。
チャンクレベルの量子化探索は、KVキャッシュチャンクの最適ビット幅構成を決定する。
Cocktailは、さまざまなモデルやデータセット上で、最先端のKVキャッシュ量子化手法より優れている。
論文 参考訳(メタデータ) (2025-03-30T03:20:34Z) - WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。
WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。
提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文 参考訳(メタデータ) (2025-03-23T03:36:52Z) - KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference [40.97781175723418]
KVキャッシュの量子化は、長いコンテキストにおける大規模言語モデル推論のスループットとレイテンシを改善することができる。
現在の方法では、KVキャッシュの量子化に対する階層的感度を見極めること、オンラインのきめ細かい決定のオーバーヘッドが高いこと、異なるLLMや制約に対する柔軟性の低いこと、の3つの未解決問題がある。
粗粒度のKVキャッシュに対して最適なハードウェアフレンドリなKV量子化ペアを適応的に探索する,シンプルで効果的なフレームワークKVTunerを提案する。
論文 参考訳(メタデータ) (2025-02-06T15:26:26Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。