論文の概要: InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
- arxiv url: http://arxiv.org/abs/2506.15745v1
- Date: Wed, 18 Jun 2025 02:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.756482
- Title: InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding
- Title(参考訳): InfiniPot-V: ストリーミングビデオ理解のためのメモリ制限KVキャッシュ圧縮
- Authors: Minsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang,
- Abstract要約: InfiniPot-Vは、ストリーミングビデオ理解のためのトレーニング不要でクエリに依存しない最初のフレームワークである。
ストリーミングビデオ理解のために、ハードで長さに依存しないメモリキャップを強制する。
ピークのGPUメモリを最大94%削減し、リアルタイム生成を継続し、フルキャッシュの正確性にマッチまたは超える。
- 参考スコア(独自算出の注目度): 17.111422610001227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern multimodal large language models (MLLMs) can reason over hour-long video, yet their key-value (KV) cache grows linearly with time--quickly exceeding the fixed memory of phones, AR glasses, and edge robots. Prior compression schemes either assume the whole video and user query are available offline or must first build the full cache, so memory still scales with stream length. InfiniPot-V is the first training-free, query-agnostic framework that enforces a hard, length-independent memory cap for streaming video understanding. During video encoding it monitors the cache and, once a user-set threshold is reached, runs a lightweight compression pass that (i) removes temporally redundant tokens via Temporal-axis Redundancy (TaR) metric and (ii) keeps semantically significant tokens via Value-Norm (VaN) ranking. Across four open-source MLLMs and four long-video and two streaming-video benchmarks, InfiniPot-V cuts peak GPU memory by up to 94%, sustains real-time generation, and matches or surpasses full-cache accuracy--even in multi-turn dialogues. By dissolving the KV cache bottleneck without retraining or query knowledge, InfiniPot-V closes the gap for on-device streaming video assistants.
- Abstract(参考訳): 現代のマルチモーダル大言語モデル(MLLM)は、1時間以上の動画を推論できるが、キー値(KV)キャッシュは、電話、ARメガネ、エッジロボットの固定メモリを超える時間とともに線形に増大する。
以前の圧縮スキームでは、ビデオ全体とユーザクエリがオフラインで利用できると仮定するか、最初にフルキャッシュを構築しなければならないため、メモリはストリーム長でスケールする。
InfiniPot-Vは、ストリーミングビデオ理解のためのハードで長さに依存しないメモリキャップを強制する、トレーニング不要でクエリに依存しない最初のフレームワークである。
ビデオエンコーディング中にキャッシュを監視し、ユーザ設定しきい値に達すると、軽量な圧縮パスを実行します。
(i)時間軸冗長(TaR)メートル法により時間的に冗長なトークンを除去し、
(ii)Value-Norm(VaN)ランキングを通じて意味的に重要なトークンを保持する。
InfiniPot-Vは4つのオープンソースMLLMと4つの長ビデオと2つのストリーミングビデオベンチマークで、ピークGPUメモリを最大94%削減し、リアルタイム生成を継続し、マルチターン対話でもフルキャッシュの正確性にマッチまたは超えている。
トレーニングやクエリの知識なしにKVキャッシュのボトルネックを解消することで、InfiniPot-Vはデバイス上のストリーミングビデオアシスタントのギャップを埋める。
関連論文リスト
- CRAM: Large-scale Video Continual Learning with Bootstrapped Compression [4.304743423080129]
連続学習(CL)は、ニューラルネットワークがIIDサンプリングではなく、入力の連続ストリームから学ぶことを約束する。
メモリバッファから過去のサンプルを補強するリハーサルベースのアプローチを用いたビデオCLに焦点を当てた。
そこで本稿では,従来型のネットワークを慎重に圧縮し,新しいネットワークで再圧縮する必要があるビデオ符号をリフレッシュすることで,この忘れを解消する手法を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:32:20Z) - QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。
我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:26:50Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - SpeCache: Speculative Key-Value Caching for Efficient Generation of LLMs [44.41154292836592]
我々は,完全なKVキャッシュをオフロードし,各デコードステップでKVペアを動的にフェッチするSpeCacheを提案する。
LongBenchとNeedle-in-a-Haystackベンチマークの実験では、SpeCacheがVRAMの使用を効果的に削減していることが確認されている。
論文 参考訳(メタデータ) (2025-03-20T14:01:56Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference [25.638980944695728]
ShadowKVは、LLM(Long-Context Large Language Model)推論システムである。
低ランクのキーキャッシュを格納し、バリューキャッシュをオフロードすることで、より大きなバッチサイズと長いシーケンスのためにメモリフットプリントを削減する。
最大6$times$大きなバッチサイズをサポートし、A100 GPUで最大3.04$times$までスループットを向上できる。
論文 参考訳(メタデータ) (2024-10-28T19:08:12Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。