論文の概要: Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory
- arxiv url: http://arxiv.org/abs/2602.18434v1
- Date: Fri, 20 Feb 2026 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.423041
- Title: Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory
- Title(参考訳): Going Down Memory Lane:動的KVキャッシュメモリによるビデオストリーム理解のためのスケーリングトークン
- Authors: Vatsal Agarwal, Saksham Suri, Matthew Gwilliam, Pulkit Kumar, Abhinav Shrivastava,
- Abstract要約: 既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
- 参考スコア(独自算出の注目度): 50.30283773196725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming video understanding requires models to robustly encode, store, and retrieve information from a continuous video stream to support accurate video question answering (VQA). Existing state-of-the-art approaches rely on key-value caching to accumulate frame-level information over time, but use a limited number of tokens per frame, leading to the loss of fine-grained visual details. In this work, we propose scaling the token budget to enable more granular spatiotemporal understanding and reasoning. First, we find that current methods are ill-equipped to handle dense streams: their feature encoding causes query-frame similarity scores to increase over time, biasing retrieval toward later frames. To address this, we introduce an adaptive selection strategy that reduces token redundancy while preserving local spatiotemporal information. We further propose a training-free retrieval mixture-of-experts that leverages external models to better identify relevant frames. Our method, MemStream, achieves +8.0% on CG-Bench, +8.5% on LVBench, and +2.4% on VideoMME (Long) over ReKV with Qwen2.5-VL-7B.
- Abstract(参考訳): ストリーミングビデオ理解には、連続したビデオストリームから情報を強固にエンコードし、保存し、取得し、正確なビデオ質問応答(VQA)をサポートするモデルが必要である。
既存の最先端のアプローチは、時間とともにフレームレベルの情報を蓄積するためにキーバリューキャッシングに依存しているが、フレーム毎にトークンの数が限られており、きめ細かい視覚的詳細が失われている。
本研究では,より詳細な時空間的理解と推論を可能にするため,トークン予算のスケーリングを提案する。
まず、現在の手法では、高密度ストリームを処理できないことが判明した。その特徴符号化により、クエリフレームの類似度スコアが時間とともに増加し、後続のフレームに偏りが生じる。
そこで本研究では,局所時空間情報を保存しながらトークンの冗長性を低減できる適応的選択戦略を提案する。
さらに、外部モデルを利用して関連するフレームをより正確に識別する、トレーニング不要な検索ミックス・オブ・エキスパートを提案する。
本手法は,CG-Benchでは+8.0%,LVBenchでは+8.5%,ReKVでは+2.4%,Qwen2.5-VL-7Bでは+2.4%であった。
関連論文リスト
- StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding [14.50396424661833]
StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
論文 参考訳(メタデータ) (2025-08-21T16:56:29Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。