論文の概要: StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2508.15717v1
- Date: Thu, 21 Aug 2025 16:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.413798
- Title: StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding
- Title(参考訳): StreamMem: ストリームビデオ理解のためのクエリ非依存KVキャッシュメモリ
- Authors: Yanlai Yang, Zhuokai Zhao, Satya Narayan Shukla, Aashu Singh, Shlok Kumar Mishra, Lizhu Zhang, Mengye Ren,
- Abstract要約: StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
- 参考スコア(独自算出の注目度): 14.50396424661833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have made significant progress in visual-language reasoning, but their ability to efficiently handle long videos remains limited. Despite recent advances in long-context MLLMs, storing and attending to the key-value (KV) cache for long visual contexts incurs substantial memory and computational overhead. Existing visual compression methods require either encoding the entire visual context before compression or having access to the questions in advance, which is impractical for long video understanding and multi-turn conversational settings. In this work, we propose StreamMem, a query-agnostic KV cache memory mechanism for streaming video understanding. Specifically, StreamMem encodes new video frames in a streaming manner, compressing the KV cache using attention scores between visual tokens and generic query tokens, while maintaining a fixed-size KV memory to enable efficient question answering (QA) in memory-constrained, long-video scenarios. Evaluation on three long video understanding and two streaming video question answering benchmarks shows that StreamMem achieves state-of-the-art performance in query-agnostic KV cache compression and is competitive with query-aware compression approaches.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、視覚言語推論において大きな進歩を遂げているが、長大ビデオの処理能力は依然として限られている。
近年のLong-context MLLMの進歩にもかかわらず、キー値(KV)キャッシュの保存と保存は、長い視覚的コンテキストのためにかなりのメモリと計算オーバーヘッドを引き起こす。
既存の視覚的圧縮手法では、圧縮前の視覚的コンテキスト全体を符号化するか、事前に質問にアクセスする必要がある。
本研究では,ストリームビデオ理解のためのクエリに依存しないKVキャッシュメモリ機構であるStreamMemを提案する。
具体的には、StreamMemは、新しいビデオフレームをストリーミング形式でエンコードし、ビジュアルトークンとジェネリッククエリトークンの間の注意スコアを使用してKVキャッシュを圧縮すると同時に、固定サイズのKVメモリを維持して、メモリ制約の長いシナリオで効率的な質問応答(QA)を可能にする。
3つの長いビデオ理解と2つのストリーミングビデオ質問応答ベンチマークの評価から、StreamMemはクエリ非依存のKVキャッシュ圧縮において最先端のパフォーマンスを実現し、クエリ対応の圧縮アプローチと競合することを示す。
関連論文リスト
- InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding [17.111422610001227]
InfiniPot-Vは、ストリーミングビデオ理解のためのトレーニング不要でクエリに依存しない最初のフレームワークである。
ストリーミングビデオ理解のために、ハードで長さに依存しないメモリキャップを強制する。
ピークのGPUメモリを最大94%削減し、リアルタイム生成を継続し、フルキャッシュの正確性にマッチまたは超える。
論文 参考訳(メタデータ) (2025-06-18T02:22:14Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval [13.891391928767195]
LiveVLMは、ストリーミング、オンラインビデオ理解、リアルタイムインタラクションに特化したトレーニング不要のフレームワークである。
LiveVLMはストリーミング指向のKVキャッシュを構築し、ビデオストリームをリアルタイムで処理し、長期のビデオの詳細を保持し、冗長なKVを排除する。
新しい質問が提案されると、LiveVLMは、短期と長期の両方の視覚情報を効率的に取得するオンラインの質問回答プロセスを導入する。
論文 参考訳(メタデータ) (2025-05-21T08:47:15Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - Streaming Video Question-Answering with In-context Video KV-Cache Retrieval [10.990431921021585]
我々は,効率的なストリーミングビデオ質問応答(StreamingVQA)を可能にするトレーニング不要な手法であるReKVを提案する。
提案手法は,長い動画をストリーミング形式で分析し,ユーザの問い合わせが受信されたら即座に応答することができる。
論文 参考訳(メタデータ) (2025-03-01T15:53:33Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Hierarchical Memory for Long Video QA [78.72965584414368]
本稿では,LOVEU Challenge @ CVPR'24, Track 1 (Long Video VQA) のチャンピオンソリューションについて述べる。
我々は、限られたGPUメモリ(VRAM)で長いビデオを処理できるSTARメモリという階層的なメモリ機構を採用した。
さらに,MovieChat-1K トレーニングセットの映像と音声データを利用して,Flash-VStream がリリースした事前学習重量を微調整し,課題の1位を達成した。
論文 参考訳(メタデータ) (2024-06-30T06:08:12Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。