論文の概要: CacheFlow: Compressive Streaming Memory for Efficient Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2511.13644v1
- Date: Mon, 17 Nov 2025 17:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.65031
- Title: CacheFlow: Compressive Streaming Memory for Efficient Long-Form Video Understanding
- Title(参考訳): CacheFlow: 効率的な長時間ビデオ理解のための圧縮ストリーミングメモリ
- Authors: Shrenik Patel, Daivik Patel,
- Abstract要約: CacheFlowは、Dynamic Token Droppingと長期メモリを組み合わせた、トレーニング不要のパイプラインである。
オンラインのフレーム単位の処理により、当社のアプローチはライブストリーミングVQAに基本的に適しています。
推測において、コンセンサスに基づく検索機構は、Top-Kで最も関連性の高いブロックのみを検索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form video question answering (VQA) overwhelms current vision-language models (VLMs) because attention and key-value (KV) caches grow with runtime, forcing either expensive inference or near-sighted sliding windows. We introduce CacheFlow, a training-free pipeline that pairs Dynamic Token Dropping (DTD) with a compressive long-term memory. DTD prunes per-patch tokens online via cosine similarity to the previous frame, and surviving tokens are packed into fixed-size blocks. This online, per-frame processing makes our approach fundamentally suited for live streaming VQA. As blocks are processed, each one's keys are summarized by a tiny recurrent encoder to form a retrieval index, while the block's full KV pairs are offloaded and later rehydrated for generation, preserving answer fidelity. At inference, a consensus-based retrieval mechanism retrieves only the Top-K most relevant blocks and attends over both the retrieved and local context for precise, long-range reasoning. CacheFlow is drop-in, architecture-agnostic, and requires no fine-tuning. Experiments on both offline and streaming VQA benchmarks demonstrate that CacheFlow outperforms current strong baselines, while processing up to 87% less tokens. Our dual approach enables VLMs to be both efficient and context-aware, paving the way for practical long-form video understanding.
- Abstract(参考訳): VQA(Long-form video question answering)は、注意とキー値(KV)キャッシュが実行時に増大するため、現在の視覚言語モデル(VLM)を圧倒する。
我々は、動的トークンドロップ(DTD)と圧縮的長期記憶を組み合わせた、トレーニング不要のパイプラインであるCacheFlowを紹介した。
DTD prunes per-patch tokens online via cosine similarity to the previous frame, and survive tokens are pack into fixed-size blocks。
このオンラインのフレーム単位の処理によって、当社のアプローチは、ライブストリーミングVQAに基本的に適しています。
ブロックが処理されると、各キーは小さなリカレントエンコーダによって要約され、検索インデックスを形成する。
推論において、コンセンサスに基づく検索機構は、Top-Kで最も関連性の高いブロックのみを検索し、検索されたコンテキストとローカルコンテキストの両方に関連付けて、正確な長距離推論を行う。
CacheFlowはドロップインでアーキテクチャに依存しないため、微調整は必要ありません。
オフラインとストリーミング両方のVQAベンチマークの実験では、CacheFlowが現在の強力なベースラインを上回っ、最大87%のトークンを処理することが示されている。
我々の2つのアプローチは、VLMの効率性とコンテキスト認識を両立させ、実用的なロングフォームビデオ理解の道を開く。
関連論文リスト
- StreamKV: Streaming Video Question-Answering with Segment-based KV Cache Retrieval and Compression [95.59657871147846]
我々は,ビデオLLMと高度なKVキャッシュの検索と圧縮をシームレスに行うフレームワークである textbfStreamKV を提案する。
公開StreamingVQAベンチマークの実験では、StreamKVが既存のオンラインビデオ-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2025-11-10T16:25:03Z) - StreamingTOM: Streaming Token Compression for Efficient Video Understanding [6.9203477336374775]
既存のアプローチはLLM後のkv-cacheのみを規制し、コストのかかるLLM前のプリフィルは変わらない。
StreamingTOMは,LLM前とLLM後の両方のボトルネックに,予測可能なレイテンシで対処する,トレーニングフリーでプラグイン&プレイの2段階フレームワークです。
実験では, 従来のSOTAと比較して, 15.7 時間で kv-cache 圧縮, 12 時間で低ピークメモリ, 2 時間で速い TTFT 圧縮を実現している。
論文 参考訳(メタデータ) (2025-10-21T03:39:41Z) - StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding [14.50396424661833]
StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
論文 参考訳(メタデータ) (2025-08-21T16:56:29Z) - InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding [26.408842739663346]
InfiniPot-Vは、ストリーミングビデオ理解のためのハードで長さに依存しないメモリキャップを強制する、トレーニング不要でクエリに依存しない最初のフレームワークである。
ピーク時のGPUメモリを最大94%削減し、リアルタイム生成を継続し、マルチターンダイアログでフルキャッシュの正確性にマッチまたは超える。
論文 参考訳(メタデータ) (2025-06-18T02:22:14Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。