論文の概要: Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory
- arxiv url: http://arxiv.org/abs/2602.18434v1
- Date: Fri, 20 Feb 2026 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.423041
- Title: Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory
- Title(参考訳): Going Down Memory Lane:動的KVキャッシュメモリによるビデオストリーム理解のためのスケーリングトークン
- Authors: Vatsal Agarwal, Saksham Suri, Matthew Gwilliam, Pulkit Kumar, Abhinav Shrivastava,
- Abstract要約: 既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
- 参考スコア(独自算出の注目度): 50.30283773196725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming video understanding requires models to robustly encode, store, and retrieve information from a continuous video stream to support accurate video question answering (VQA). Existing state-of-the-art approaches rely on key-value caching to accumulate frame-level information over time, but use a limited number of tokens per frame, leading to the loss of fine-grained visual details. In this work, we propose scaling the token budget to enable more granular spatiotemporal understanding and reasoning. First, we find that current methods are ill-equipped to handle dense streams: their feature encoding causes query-frame similarity scores to increase over time, biasing retrieval toward later frames. To address this, we introduce an adaptive selection strategy that reduces token redundancy while preserving local spatiotemporal information. We further propose a training-free retrieval mixture-of-experts that leverages external models to better identify relevant frames. Our method, MemStream, achieves +8.0% on CG-Bench, +8.5% on LVBench, and +2.4% on VideoMME (Long) over ReKV with Qwen2.5-VL-7B.
- Abstract(参考訳): ストリーミングビデオ理解には、連続したビデオストリームから情報を強固にエンコードし、保存し、取得し、正確なビデオ質問応答(VQA)をサポートするモデルが必要である。
既存の最先端のアプローチは、時間とともにフレームレベルの情報を蓄積するためにキーバリューキャッシングに依存しているが、フレーム毎にトークンの数が限られており、きめ細かい視覚的詳細が失われている。
本研究では,より詳細な時空間的理解と推論を可能にするため,トークン予算のスケーリングを提案する。
まず、現在の手法では、高密度ストリームを処理できないことが判明した。その特徴符号化により、クエリフレームの類似度スコアが時間とともに増加し、後続のフレームに偏りが生じる。
そこで本研究では,局所時空間情報を保存しながらトークンの冗長性を低減できる適応的選択戦略を提案する。
さらに、外部モデルを利用して関連するフレームをより正確に識別する、トレーニング不要な検索ミックス・オブ・エキスパートを提案する。
本手法は,CG-Benchでは+8.0%,LVBenchでは+8.5%,ReKVでは+2.4%,Qwen2.5-VL-7Bでは+2.4%であった。
関連論文リスト
- HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding [92.59317281526239]
HERMESは、ビデオストリームのリアルタイムかつ正確な理解のためのトレーニング不要アーキテクチャである。
HermesはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
Hermesはすべてのベンチマークで優れた精度または同等の精度を実現しており、ストリーミングデータセットでは最大11.4%向上している。
論文 参考訳(メタデータ) (2026-01-21T07:26:15Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding [13.02027465520324]
構造的検索とRLに基づく蒸留を統合したMARCを提案する。
MARCは1フレームのトークンのみを使用してほぼベースラインの精度を達成する。
これにより、リソース制約のある環境での効率的なリアルタイムビデオ理解の可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T08:07:19Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - StreamMem: Query-Agnostic KV Cache Memory for Streaming Video Understanding [14.50396424661833]
StreamMemは、ストリーミングビデオ理解のためのクエリに依存しないKVキャッシュメモリメカニズムである。
クエリ非依存のKVキャッシュ圧縮における最先端のパフォーマンスを実現し、クエリ対応圧縮アプローチと競合する。
論文 参考訳(メタデータ) (2025-08-21T16:56:29Z) - APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval [41.81696346270799]
現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T12:27:10Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。