論文の概要: MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering
- arxiv url: http://arxiv.org/abs/2605.22269v1
- Date: Thu, 21 May 2026 10:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.206062
- Title: MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering
- Title(参考訳): MuKV:長時間ストリーミングビデオ質問応答のためのマルチグレードKVキャッシュ圧縮
- Authors: Junbin Xiao, Jiajun Chen, Tianxiang Sun, Xun Yang, Angela Yao,
- Abstract要約: KVキャッシュは、LLMプリフィルを介して歴史的なトークンのキーバリューを格納する。
MuKV は KV キャッシュ圧縮モジュールと半階層的検索手法を特徴とする手法である。
長時間ストリーミングのVideoQAベンチマークの実験では、MKVはメモリとオンラインQA効率を犠牲にすることなく、回答の正確性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 75.0394545769057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long streaming video QA remains challenging due to growing visual tokens and limited reasoning length of large language models (LLMs). KV-caching stores the Key-Value (KV) of the historical tokens via LLM prefill and enables more efficient streaming QA. However, existing methods cache every one or two frames, causing redundant memory usage and losing fine-grained spatial details within frame or temporal contexts across frames. This paper proposes MuKV, a method that features a multi-grained KV cache compression module and a semi-hierarchical retrieval approach to improve both efficiency and accuracy for long streaming VideoQA. For the offline KV cache, MuKV extracts visual representations at patch-, frame-, and segment-levels. The multiple levels of granularity preserve both local cues and global temporal context, while maintaining efficiency with a dual signal token compression mechanism guided by self-attention and frequency. For online QA, MuKV designs a semi-hierarchical retrieval method to retrieve relevant KV caches for answer generation. Experiments on long-streaming VideoQA benchmarks show that MuKV significantly improves answer accuracy, without sacrificing memory and online QA efficiency. Moreover, our compression mechanism alone brings consistent benefits across answer accuracy, memory, and QA efficiency over baselines, showcasing highly effective contribution.
- Abstract(参考訳): 長いストリーミングビデオQAは、視覚トークンの増加と、大きな言語モデル(LLM)の推論長の制限により、依然として困難である。
KVキャッシュは、LLMプリフィルを介して歴史的なトークンのキーバリュー(KV)を格納し、より効率的なストリーミングQAを可能にする。
しかし、既存のメソッドは1つか2つのフレームごとにキャッシュし、冗長なメモリ使用とフレーム内の細粒度の空間的詳細やフレーム間の時間的コンテキストを失う。
本稿では,マルチ粒度KVキャッシュ圧縮モジュールと半階層的検索手法を組み合わせたMuKVを提案する。
オフラインのKVキャッシュでは、MKVはパッチレベル、フレームレベル、セグメントレベルの視覚的表現を抽出する。
複数のレベルの粒度は局所的手がかりと大域的時間的文脈の両方を保持し、自己注意と周波数で導かれる二重信号トークン圧縮機構で効率を保っている。
オンラインQAにおいて、MKVは応答生成のための関連するKVキャッシュを検索する半階層的検索法を設計する。
長時間ストリーミングのVideoQAベンチマークの実験では、MKVはメモリとオンラインQA効率を犠牲にすることなく、回答の正確性を大幅に向上することが示された。
さらに、我々の圧縮メカニズムだけでは、解答精度、メモリ、QA効率がベースラインよりも一貫した利点をもたらし、非常に効果的な寄与を示している。
関連論文リスト
- HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding [92.59317281526239]
HERMESは、ビデオストリームのリアルタイムかつ正確な理解のためのトレーニング不要アーキテクチャである。
HermesはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
Hermesはすべてのベンチマークで優れた精度または同等の精度を実現しており、ストリーミングデータセットでは最大11.4%向上している。
論文 参考訳(メタデータ) (2026-01-21T07:26:15Z) - StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression [95.59657871147846]
我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-10T16:25:03Z) - StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding [14.50396424661833]
StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
論文 参考訳(メタデータ) (2025-08-21T16:56:29Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [14.33163594016033]
大規模言語モデル(LLM)は、かなりのプリフィル計算とキー値(KV)キャッシュを必要とする。
KVキャッシュをプレフィルアクセラレーションで圧縮する最近の作業は、このコストを低減しているが、誤ってプリフィル計算の削減をデコードKV予算に結び付ける。
FastKVはKVキャッシュ圧縮フレームワークで、プリフィルとデコードの両方の遅延を減らし、後のレイヤでのトークンの重要性の安定化を活用する。
論文 参考訳(メタデータ) (2025-02-03T05:25:09Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。