論文の概要: StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression
- arxiv url: http://arxiv.org/abs/2511.07278v1
- Date: Mon, 10 Nov 2025 16:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.366431
- Title: StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression
- Title(参考訳): StreamKV: セグメントベースのKVキャッシュ検索と圧縮によるビデオ質問応答
- Authors: Yilong Chen, Xiang Bai, Zhibin Wang, Chengyu Bai, Yuhan Dai, Ming Lu, Shanghang Zhang,
- Abstract要約: 我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
- 参考スコア(独自算出の注目度): 95.59657871147846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (Video-LLMs) have demonstrated significant potential in the areas of video captioning, search, and summarization. However, current Video-LLMs still face challenges with long real-world videos. Recent methods have introduced a retrieval mechanism that retrieves query-relevant KV caches for question answering, enhancing the efficiency and accuracy of long real-world videos. However, the compression and retrieval of KV caches are still not fully explored. In this paper, we propose \textbf{StreamKV}, a training-free framework that seamlessly equips Video-LLMs with advanced KV cache retrieval and compression. Compared to previous methods that used uniform partitioning, StreamKV dynamically partitions video streams into semantic segments, which better preserves semantic information. For KV cache retrieval, StreamKV calculates a summary vector for each segment to retain segment-level information essential for retrieval. For KV cache compression, StreamKV introduces a guidance prompt designed to capture the key semantic elements within each segment, ensuring only the most informative KV caches are retained for answering questions. Moreover, StreamKV unifies KV cache retrieval and compression within a single module, performing both in a layer-adaptive manner, thereby further improving the effectiveness of streaming video question answering. Extensive experiments on public StreamingVQA benchmarks demonstrate that StreamKV significantly outperforms existing Online Video-LLMs, achieving superior accuracy while substantially improving both memory efficiency and computational latency. The code has been released at https://github.com/sou1p0wer/StreamKV.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, Video-LLMs) は,ビデオキャプション,検索,要約の領域において有意な可能性を証明している。
しかし、現在のビデオ-LLMは、長い現実世界のビデオの課題に直面している。
近年,質問応答のためのクエリ関連KVキャッシュの検索機構を導入し,リアルタイムビデオの効率と精度を向上させる手法が提案されている。
しかし、KVキャッシュの圧縮と検索は、まだ完全には探索されていない。
本稿では,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行う訓練不要のフレームワークである \textbf{StreamKV} を提案する。
均一なパーティショニングを使用した従来の方法と比較して、StreamKVはビデオストリームをセマンティックセグメントに動的に分割し、セマンティック情報をよりよく保存する。
KVキャッシュの検索では、StreamKVは各セグメントの要約ベクトルを算出し、検索に必要なセグメントレベルの情報を保持する。
KVキャッシュ圧縮のために、StreamKVは各セグメント内のキーセマンティック要素をキャプチャするために設計されたガイダンスプロンプトを導入する。
さらに、StreamKVは、単一のモジュール内でKVキャッシュの検索と圧縮を統一し、層適応的に両方を実行することにより、ストリーミングビデオ質問応答の有効性をさらに向上する。
公開StreamingVQAベンチマークの大規模な実験により、StreamKVは既存のOnline Video-LLMよりも大幅に優れており、メモリ効率と計算遅延の両方を大幅に改善しつつ、より優れた精度を実現している。
コードはhttps://github.com/sou1p0wer/StreamKVでリリースされた。
関連論文リスト
- StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding [14.50396424661833]
StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
論文 参考訳(メタデータ) (2025-08-21T16:56:29Z) - Sparse Attention across Multiple-context KV Cache [8.236266965773465]
推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。
近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。
本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
論文 参考訳(メタデータ) (2025-08-06T02:53:14Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - Streaming Video Question-Answering with In-context Video KV-Cache Retrieval [10.990431921021585]
我々は,効率的なストリーミングビデオ質問応答(StreamingVQA)を可能にするトレーニング不要な手法であるReKVを提案する。
提案手法は,長い動画をストリーミング形式で分析し,ユーザの問い合わせが受信されたら即座に応答することができる。
論文 参考訳(メタデータ) (2025-03-01T15:53:33Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。