論文の概要: InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2506.15745v1
- Date: Wed, 18 Jun 2025 02:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.756482
- Title: InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
- Title(参考訳): InfiniPot-V: ストリーミングビデオ理解のためのメモリ制限KVキャッシュ圧縮
- Authors: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang,
- Abstract要約: InfiniPot-Vは、ストリーミングビデオ理解のためのトレーニング不要でクエリに依存しない最初のフレームワークである。
ストリーミングビデオ理解のために、ハードで長さに依存しないメモリキャップを強制する。
ピークのGPUメモリを最大94%削減し、リアルタイム生成を継続し、フルキャッシュの正確性にマッチまたは超える。
- 参考スコア(独自算出の注目度): 17.111422610001227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time--quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and two streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
- Abstract(参考訳): 現代のマルチモーダル大言語モデル(MLLM)は、1時間以上の動画を推論できるが、キー値(KV)キャッシュは、電話、ARメガネ、エッジロボットの固定メモリを超える時間とともに線形に増大する。
以前の圧縮スキームでは、ビデオ全体とユーザクエリがオフラインで利用できると仮定するか、最初にフルキャッシュを構築しなければならないため、メモリはストリーム長でスケールする。
InfiniPot-Vは、ストリーミングビデオ理解のためのハードで長さに依存しないメモリキャップを強制する、トレーニング不要でクエリに依存しない最初のフレームワークである。
ビデオエンコーディング中にキャッシュを監視し、ユーザ設定しきい値に達すると、軽量な圧縮パスを実行します。
(i)時間軸冗長(TaR)メートル法により時間的に冗長なトークンを除去し、
(ii)Value-Norm(VaN)ランキングを通じて意味的に重要なトークンを保持する。
InfiniPot-Vは4つのオープンソースMLLMと4つの長ビデオと2つのストリーミングビデオベンチマークで、ピークGPUメモリを最大94%削減し、リアルタイム生成を継続し、マルチターン対話でもフルキャッシュの正確性にマッチまたは超えている。
トレーニングやクエリの知識なしにKVキャッシュのボトルネックを解消することで、InfiniPot-Vはデバイス上のストリーミングビデオアシスタントのギャップを埋める。
関連論文リスト
- QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。
我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:26:50Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。