Fugu-MT 論文翻訳(概要): Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

論文の概要: Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

arxiv url: http://arxiv.org/abs/2503.16257v1
Date: Thu, 20 Mar 2025 15:52:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.467125
Title: Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models
Title（参考訳）: ビデオ大言語モデルのためのプラグイン・アンド・プレイ1.xビットKVキャッシュの量子化
Authors: Keda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang,
Abstract要約: ビデオ大言語モデル(VideoLLM)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする能力を実証している。ビデオフレームからの数千のビジュアルトークンのため、キー値(KV)キャッシュはメモリ要求を大幅に増加させることができる。本稿では,KVキャッシュを2ビット未満に圧縮するKVキャッシュ量子化手法であるVidKVを紹介する。
参考スコア（独自算出の注目度）: 28.379533608574814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video large language models (VideoLLMs) have demonstrated the capability to process longer video inputs and enable complex reasoning and analysis. However, due to the thousands of visual tokens from the video frames, key-value (KV) cache can significantly increase memory requirements, becoming a bottleneck for inference speed and memory usage. KV cache quantization is a widely used approach to address this problem. In this paper, we find that 2-bit KV quantization of VideoLLMs can hardly hurt the model performance, while the limit of KV cache quantization in even lower bits has not been investigated. To bridge this gap, we introduce VidKV, a plug-and-play KV cache quantization method to compress the KV cache to lower than 2 bits. Specifically, (1) for key, we propose a mixed-precision quantization strategy in the channel dimension, where we perform 2-bit quantization for anomalous channels and 1-bit quantization combined with FFT for normal channels; (2) for value, we implement 1.58-bit quantization while selectively filtering semantically salient visual tokens for targeted preservation, for a better trade-off between precision and model performance. Importantly, our findings suggest that the value cache of VideoLLMs should be quantized in a per-channel fashion instead of the per-token fashion proposed by prior KV cache quantization works for LLMs. Empirically, extensive results with LLaVA-OV-7B and Qwen2.5-VL-7B on six benchmarks show that VidKV effectively compresses the KV cache to 1.5-bit and 1.58-bit precision with almost no performance drop compared to the FP16 counterparts.
Abstract（参考訳）: ビデオ大言語モデル(VideoLLM)は、より長いビデオ入力を処理し、複雑な推論と分析を可能にする能力を実証している。しかし、ビデオフレームからの数千の視覚トークンのため、キー値(KV)キャッシュはメモリ要求を大幅に増加させ、推論速度とメモリ使用量のボトルネックとなる。 KVキャッシュ量子化はこの問題に対処するために広く使われている手法である。本稿では,ビデオLLMの2ビットKV量子化がモデル性能を損なうことはほとんどないが,下位ビットにおいてもKVキャッシュ量子化の限界は検討されていない。このギャップを埋めるために、KVキャッシュを2ビット未満に圧縮するプラグアンドプレイKVキャッシュ量子化手法であるVidKVを導入する。具体的には,(1)キーに対して,異常チャネルの2ビット量子化と1ビット量子化とFFTの2ビット量子化を併用したチャネル次元の混合精度量子化戦略を提案する。(2)値として,ターゲット保存のための意味論的に有意な視覚トークンを選択的にフィルタリングし,精度とモデル性能のトレードオフを改善するために,1.58ビット量子化を実装した。重要なことは,従来のKVキャッシュの量子化作業では提案されていた方式ではなく,TVLLMの値キャッシュをチャネル単位の方法で定量化することが示唆された。実験的に、6つのベンチマークでLLaVA-OV-7BとQwen2.5-VL-7Bの広範な結果から、VidKVはKVキャッシュを1.5ビットと1.58ビットの精度で効率よく圧縮し、FP16と比較してほぼ性能が低下した。

関連論文リスト

CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文参考訳（メタデータ） (2025-06-23T17:50:11Z)
NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。 LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文参考訳（メタデータ） (2025-05-22T04:23:19Z)
SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文参考訳（メタデータ） (2025-02-21T08:55:21Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文参考訳（メタデータ） (2024-10-29T20:04:34Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
SKVQ: Sliding-window Key and Value Cache Quantization for Large Language Models [43.22490117833939]
SKVQはスライディングウインドウKVキャッシュ量子化の略である。 SKVQは、量子化グループにおけるチャネルの類似性を改善するために、KVキャッシュのチャネルを再構成する。 7bモデルで80GBのメモリGPU上で最大1Mのコンテキスト長を処理でき、最大7倍高速な復号を行うことができる。
論文参考訳（メタデータ） (2024-05-10T03:06:24Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)
KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文参考訳（メタデータ） (2024-01-31T18:58:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。